数据分布特征的描述:
主要内容有:
1 集中趋势的测度
该测度值反应数据一般水平的代表制,或者是数据分布的中心值。
众数(mode)出现频率最高的数(可能不止一个也可能没有)
如果在组局势变量数列,首先确定中数组,一般最大频数对应的就是众数
组,然后用公式求众数近似值
中位数(median)一组数据从小到大排序后,处于中间位置的数据。
如果数据个数是奇数,中位数处于正中心。
如果数据个数是偶数,中位数是正中两项平均值。
如果数据已分组,则需要用公式求近似值。
性质:数据值与中位数之差的绝对值最小
分位数(Quartile)
将数据n等分,得到n-1个分位数。
eg:四分位数就是将数据分布四等分的三个数值。
百分位数的特征:至少有p%的数据值小于或等于它,剩余的比例大于或
等于它。计算:I=(p/100)n
若I整数,则为第I和第I+1项的平均值
若I非整数,则为第I+1项
均值(mean)主要指算数平均数,是一个最灵敏的指标,也是对资料所提供
信息运用最充分的指标
简单算数平均值的特点是每一变量值出现的次数都等于1,它把所有数据
都一一列出。
加权算术平均数:分组数据中用到,权即各组次数占得比例。
几何平均数:一般应用于比率中,将各数相乘然后开N次方。
两边取对数,就成了算数平均数的形式。
2 离中趋势的测度
离中趋势代表数据的差异程度
全距:极差(range)最大值与最小值之差
内距(inter-quertile range)上四分位数-下四分位数
平均绝对差(mean absolute deviation)
方差(variance)
标准差(standard deviation)
离散系数 极差系数(反应相对离散程度)
变异系数=(标准差/平均数)*100
3 探索性数据分析
4 双变量相关关系测度