平均数和标准差的一些应用
Z分数又称为标准化的数值,可以解释为数据值偏离平均数的标准差的个数。
切贝谢夫定理:至少75%的数据在2倍的标准差范围内
例:100人考试平均分70分,标准差是5分。问题:有多少学生成绩在60-80之间?有多少学生成绩在58-82之间?
答:k=2 75%的学生;k=2.4 82%的学生成绩落在这个区间
经验法则:具有钟形分布的数据,鸡68%的数据在平均数的1倍标准差范围内,约95%的数据在平均数2倍标准差范围内,约所有数据落在平均数3倍标准差的范围内。
例:清洁剂重量,平均16盎司,标准差0.25盎司,推论:
异常值的检测:
定义:一个数据集中有一个或更多的非正常大或非正常小的数据。判断工具:Z值,当Z大于3或小于-3时为异常值。(也即该数在平均数的3倍标准差之外)
探索性数据分析
五数概括:最小值,下四分位数,中位数,下四分位数,最大数
两变量关系的度量:
协方差:当协方差为正时,变量正线性相关;当为负时,负线性相关;当协方差近似为0时,变量不相关
相关系数:反映两之间线性相关的性质,相关系数的绝对值在0和1之间,相关系数的绝对值越接近,线性相关性越好;相关系数为0,线性无关。
举例说明如何分析对比投资方案