• / 79
  • 下载费用:10 金币  

用统计量描述数据.ppt

关 键 词:
用统计量描述数据.ppt
资源描述:
第 3 章 用统计数据描述数据,第 3章 用统计数据描述数据,§3.1 水平 (集中趋势)的测度 §3.2 差异 (离散程度)的测度 §3.3 分布形状(偏态与峰态)的测度,学习目标,1. 集中趋势各测度值的计算方法 2. 集中趋势各测度值的特点及应用场合 3. 离散程度各测度值的计算方法 4. 离散程度各测度值的特点及应用场合 5. 偏态与峰态的测度方法 用Excel计算描述统计量并进行分析,数据分布的特征,数据分布特征的测度,§3.1 集中趋势的测度,3.1.1 众数 3.1.2 中位数和分位数 3.1.3 均值 3.1.4 众数、中位数和均值的比较,集中趋势 (Central tendency),一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据,众数,众数 (mode),出现次数最多的变量值 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,众数 (不唯一性),无众数 原始数据: 10 5 9 12 6 8,,,一个众数 原始数据: 6 5 9 8 5 5,多于一个众数 原始数据: 25 28 28 36 42 42,分类数据的众数 (例题分析),解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值在所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo=可口可乐,中位数和分位数,中位数 (median),排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,中位数的计算,n为奇数,n为偶数,,数值型数据的中位数 (9个数据的算例),【例2】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位数  1080,,数值型数据的中位数 (10个数据的算例),【例3】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,,四分位数 (quartile),排序后处于25%和75%位置上的值,不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,四分位数 (位置的确定),数值型数据的四分位数 (9个数据的算例),【例4】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,,,数值型数据的四分位数 (10个数据的算例),【例5】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,,,数值型数据:平均数(均值),均值 (mean),集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据,简单均值与加权均值 (simple mean / weighted mean),设一组数据为: x1 ,x2 ,… ,xn 各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk,简单均值,加权均值,已改至此!!,加权平均数 (例题分析),,加权均值 (权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组: 考试成绩(x ): 0 20 100人数分布(f ):1 1 8乙组: 考试成绩(x): 0 20 100人数分布(f ):8 1 1,均值 (数学性质),1. 各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,调和平均数 (harmonic mean),均值的另一种表现形式 易受极端值的影响 计算公式为,原来只是计算时使用了不同的数据!,调和平均数 (例题分析),【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格,几何平均数 (geometric mean),n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为,5. 可看作是均值的一种变形,几何平均数 (例题分析),【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。,年平均增长率=114.91%-1=14.91%,几何平均数 (例题分析),【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,众数、中位数和均值的比较,众数、中位数和均值的关系,,众数、中位数和均值的特点和应用,众数 不受极端值影响 具有不唯一性 数据分布偏斜程度较大时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 均值 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,§3.2 差异(离散程度)的测度,3.2.1 极差和四分位差 3.2.2 方差及标准差 3.2.3 相对位置的测量:标准分数 3.2.4 相对离散程度:离散系数,数据的特征和测度 (本节位置),离中趋势,数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,极差,极差 (range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,R = max(xi) - min(xi),计算公式为,四分位差,四分位差 (quartile deviation),对顺序数据离散程度的测度 也称为内距或四分间距 上四分位数与下四分位数之差QD = QU – QL 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性,,如根据例5, 计算这10个家庭的人均月收入数据的四分位差为:QD = QU – QL = 1532.5-772.5=760 (元),方差和标准差,方差和标准差 (variance and standard deviation),数据离散程度的最常用测度值 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,样本方差和标准差 (simple variance and standard deviation),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,样本方差 自由度(degree of freedom),一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时, s2是σ2的无偏估计量,样本标准差 (例题分析),样本标准差 (例题分析),含义:每一天的销售量与平均数相比,平均相差21.58台,相对位置的测量:标准分数,标准分数 (standard score),1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 3. 可用于判断一组数据是否有离群点 4. 用于对变量的标准化处理 5. 计算公式为,标准分数 (性质),均值等于02. 方差等于1,标准分数 (性质),z分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。,标准化值 (例题分析),经验法则,经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内,切比雪夫不等式 (Chebyshev’s inequality ),如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用 切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少” 对于任意分布形态的数据,根据切比雪夫不等式,至少有 的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数,切比雪夫不等式 (Chebyshev’s inequality ),对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内,相对离散程度:离散系数,离散系数 (coefficient of variation),1.标准差与其相应的均值之比 2.对数据相对离散程度的测度 3.消除了数据水平高低和计量单位的影响 4.用于对不同组别数据离散程度的比较 5. 计算公式为,离散系数 (例题分析),【 例 8】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数 (例题分析),结论: 计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,数据类型与离散程度测度值,§3.3 分布形状的测度,一. 偏态及其测度 二. 峰态及其测度,数据的特征和测度 (本节位置),偏态与峰态分布的形状,偏态,峰态,偏 态,偏态 (skewness),统计学家Pearson于1895年首次提出 数据分布偏斜程度的测度 2. 偏态系数=0为对称分布 3. 偏态系数 0为右偏分布 4. 偏态系数 0为左偏分布,偏态系数 (skewness coefficient),根据原始数据计算根据分组数据计算,偏态系数 (例题分析),偏态系数 (例题分析),结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数,偏态与峰态 (从直方图上观察),按销售量分组(台),结论:1. 为右偏分布2. 峰态适中,某电脑公司销售量分布的直方图,峰 态,峰态 (kurtosis),统计学家Pearson于1905年首次提出 数据分布扁平程度的测度 峰态系数=0扁平峰度适中 峰态系数0为尖峰分布,峰态系数 (kurtosis coefficient),根据原始数据计算根据分组数据计算,峰态系数 (例题分析),结论:偏态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平分布,用Excel计算描述统计量,用Excel计算描述统计量,将120的销售量的数据输入到Excel工作表中,然后按下列步骤操作: 第1步:选择“工具”下拉菜单 第2步:选择“数据分析”选项 第3步:在分析工具中选择“描述统计”,然后选择“确定” 第4步:当对话框出现时在“输入区域”方框内键入数据区域在“输出选项”中选择输出区域选择“汇总统计”选择“确定” 实例计算,本章小节,1. 数据水平的概括性度量 2. 数据离散程度的概括性度量 3. 数据分布形状的测度 4. 用Excel计算描述统计量,结 束,
展开阅读全文
  微传网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:用统计量描述数据.ppt
链接地址:https://www.weizhuannet.com/p-11341497.html
微传网是一个办公文档、学习资料下载的在线文档分享平台!

网站资源均来自网络,如有侵权,请联系客服删除!

 网站客服QQ:80879498  会员QQ群:727456886

copyright@ 2018-2028 微传网络工作室版权所有

     经营许可证编号:冀ICP备18006529号-1 ,公安局备案号:13028102000124

收起
展开