• / 55
  • 下载费用:10 金币  

第十三、十四章 直线相关与回归分析(11讲).ppt

关 键 词:
第十三、十四章 直线相关与回归分析(11讲).ppt
资源描述:
2019/10/5,1,第十三、十四章 直线相关与回归,景学安,2019/10/5,2,,[学习要点] 1.掌握相关系数的意义、计算和假设检验 2.掌握回归系数的意义、计算和假设检验 3.直线相关与回归分析时应注意的问题,2019/10/5,3,,,[学习要求]了解:散点图的相关性意义;直线回归分析的应用。熟悉:秩相关的意义和Spearman秩相关系数的计算方法。掌握:直线相关和回归的意义和资料使用条件;相关系数和回归系数计算方法和假设检验的方法;相关与回归分析的联系与区别。,2019/10/5,4,,,在医学研究中,常会有两个变量之间相互联系、相互影响,在数量上存在互相协同变化的关系,如年龄与血压、身高与体重、药物剂量与动物死亡率、血铅值与尿铅值等。统计学常用相关与回归来分析此类关系。 第一节 直线相关分析当两个变量(x,y)在数量上的协同变化呈直线趋势时则称为直线相关(linear correlation),又称简单相关(simple correlation),用于分析双变量正态分布资料。表示两变量相关关系的重要指标就是相关系数。,2019/10/5,5,一、相关系数的意义直线相关系数(linear correlation coefficient)又称为Pearson积距相关系数,用符号r表示。它描述两变量间直线相关关系的密切程度和相关方向。r值的范围为:1≥r≥-1,当r0时,为正相关,r=1为完全正相关;当r0时,为负相关,r=-1为完全负相关。当│r│愈接近1,表示两变量的相关愈密切;当│r│愈接近0时,表示两变量相关程度愈低;当│r│=0时,称为零相关,表示两变量无直线相关关系,见示意图13.2。,2019/10/5,6,,,,,图13.2 相关系数示意,2019/10/5,7,一般认为,当样本含量较大的情况下(n100),大致可按下列标准估计两变量相关的程度:当│r│≥0.7时为高度相关;当0.7│r│≥0.4时为中度相关;当0.4│r│≥0.2时为低度相关。 二、相关系数的计算相关系数r的计算公式:,,2019/10/5,8,,,,,,. .,. .,.,. .,. .,.,.,. .,. .,. .,.,. .,.,. .,.,2019/10/5,9,,,,,,,例13.1 某医师测量了15名正常成年男子的体重(kg)与CT双肾体积(mL)大小,数据见表13.1所示。问体重与双肾体积之间有无直线相关关系?,2019/10/5,10,表13.1 15名正常成年人体重和双肾体积的测量值,计算步骤:1.由原始数据绘制散点图13.1,本资料呈直线相关趋势。,2019/10/5,11,图13.1 15名正常成年人体重和双肾体积的散点图,2019/10/5,12,2.根据表13.1原始数据计算出∑x,∑y,∑x2,∑y2,∑xy。 本例∑x=893,∑y=3991.56,∑x2=55719,∑y2=1082440.577,∑xy=243931.91。3.计算X、Y的离均差平方和与离均差积和,,,,2019/10/5,13,,,4.求相关系数r,,三、相关系数的检验假设上面所求相关系数r为样本相关系数,是总体相关系数ρ的估计值,要判断 x与y间是否有相关关系就要检验r是否来自总体相关系数ρ为零的总体。因为有抽样误差,即使在ρ=0的总体中随机抽样,r值也不一定等于零。因此计算出r值,要进行统计学检验。常用的方法为t检验。另外也可以直接查r界值表,确定P值。,2019/10/5,14,1. t检验法 t检验的计算公式,,,自由度ν=n-2,式中:Sr为相关系数的标准误,n为样本含量。,2019/10/5,15,,,例13.2 对例13.1资料所得r=0.875,检验体重与双肾重量之间是否有直线相关关系。 (1)建立检验假设,确定检验水准 H0:ρ=0 ,两变量间无直线相关关系。H1:ρ≠0 ,两变量间有直线相关关系。α=0.05。 (2)计算t值 本例n=15 , r=0.875,,2019/10/5,16,(3)确定P值,作出推断结论 按ν=n-2=13查t界值表,得 P<0.001,按α=0.05水准,拒绝Ho,接受H1,相关系数有统计学意义,可认为体重和双肾体积之间有直线相关关系。2.查表法 查附表14, 相关系数界值表。按自由度ν=n-2查r界值表,当r≥ 时,则P≤α;反之,r< 时,则P>α。本例r=0.875,r0.001(13)=0.760 ,rr0.001(13), 则P<0.001。检验结果与t检验相同。,,2019/10/5,17,,,第二节 秩相关前面所述直线相关分析适用于双变量为正态分布的资料,在实际工作中,常遇到有些资料并不呈正态分布,对于此类资料就不宜用上述所讲的直线相关分析,而常用秩相关处理资料。秩相关(rank correlation)亦称为等级相关,适用于分布类型不明的资料、偏态分布资料和等级资料的相关分析。本节主要介绍Spearman秩相关法,其分析步骤如下:,2019/10/5,18,1. 先将x,y 分别由小到大编秩次,数字相同时需要求平均秩次;2.以pi表示xi的秩次,qi表示 yi的秩次,用pi、qi直接代替 x 和 y,直接计算Pearson积矩相关系数。,,2019/10/5,19,,,3. 根据n查附表15,rs界值表,确定P值。如rs≥ra,n ,则 P≤α,说明x,y两变量直线相关有统计学意义;如rs< ra,n ,则 P>α,说明x,y两变量直线相关无统计学意义。例13.4 某研究者对15例30~50岁成年男性的舒张压(mmHg)与夜间最低血氧含量分级进行研究,结果见表13.2,试分析两者的关联性。,2019/10/5,20,表13.2 15例成年男子的舒张压与夜间最低血氧含量分级测量值,2019/10/5,21,,,(1)建立检验假设,确定检验水准H0:ρs=0,即舒张压与夜间最低血氧含量分级无相关关系。H1:ρs≠0,即舒张压与夜间最低血氧含量分级有相关关系。α=0.05。(2)计算秩相关系数rs,2019/10/5,22,,(3)确定P值,作出推断结论 查附表15,rs界值表,n=15,r0.001,15=0.779,现rs r0.001,15,故P0.001。在=0.05水准上,拒绝Ho,接受H1,可以认为舒张压与夜间最低血氧含量分级之间有正相关关系。,2019/10/5,23,,,第三节 直线回归分析一、直线回归的概念在描述两变量间的关系时,若散点图呈直线趋势或有直线相关关系,可进行直线回归(linear regression)分析。直线回归分析就是找出一条最能代表这些数据关系的直线方程,以说明两变量间的依存关系。习惯上用x作为自变量,y作为因变量,则直线回归方程为,,2019/10/5,24,式中: 为因变量y的估计值,a为回归直线y轴上的截距,为常数项;b为回归系数即回归方程的斜率,表示x改变一个单位时y的平均变动量。这与两变量间严格对应的函数关系不同。直线回归是回归分析中最基本最简单的一种,故又称简单回归(simple regression)。,,,,,,x,y,,a,0,,,α,. . . . . .,. .. .,. .,. . .,. .,2019/10/5,25,二、直线回归方程的求法求直线回归方程 ,关键在于计算a,b两个系数,根据数学上的最小二乘法原理,即保证各实测点至回归直线的纵向距离的平方和最小。可得出a,b的计算公式为,2019/10/5,26,例14.1 例13.1 资料,问体重与双肾体积之间有无直线回归关系?建立回归方程的具体步骤:1.绘制两变量之间的散点图。见图13.1,观察到两变量呈直线趋势。2.求,本例∑x=893,∑y=3991.56,∑x2=55719,∑y2=1082440.577,∑xy=243931.91。,2019/10/5,27,3. 计算回归系数b及截距a。,4.列出回归方程,5. 绘制回归直线 在自变量X的实测值范围,任意指定相距较远且易读的两个数值,代入直线回归方程,求出相应的y的估计值,确定两点,用直线连接即得回归直线。,2019/10/5,28,本例:x1取40, =219.96,x2取80, =316.56。连接点 (40,219.56)和 (80,316.56)即得回归直线。,,图13.1 15名正常成年人体重和双肾体积的散点图,2019/10/5,29,三、回归系数的假设检验前面所述直线回归方程中,回归系数b为样本回归系数,假设在总体回归系数β=0的总体中抽样,得出样本的b不一定为0,因此需作总体回归系数β是否为0的假设检验,常用方差分析或t检验。(一)方差分析其基本原理可以用图14.1直观表达,任意点p(x,y)离开过 的水平线的距离 可分成两段,即,2019/10/5,30,,,,,,P .,,,,y,x,0,,图14.1 因变量的离均差平方和分解示意图,2019/10/5,31,,是P点与回归直线的纵向距离,称为残差(residual),反映了x对y的线性影响之外的因素对y的变异作用。是估计值 与均数 之差。它的大小与回归系数b有关,|b|越大, 也越大;反之亦然。经数学推导可得下式:,用符号表示为:SS总=SS回+SS残,2019/10/5,32,SS总为y的总离均差平方和,即不考虑y与x的回归关系时y的总变异。SS回称为回归平方和,反映了y的总变异中由于x与y的直线关系而使y的总变异减少的部分,即在y的总变异中可以用x解释的部分, SS回越大,说明回归效果越好。SS残称为残差平方和,反映了x对y的线性影响之外的因素对y的变异作用。 SS残= SS总- SS回。上述三项自由度为:ν总=n-1, ν回=1, ν残=n-2,ν总= ν回+ ν残,2019/10/5,33,利用方差分析的原理,计算检验统计量F值:,MS回越大,MS残越小,F值越大,即越有理由拒绝β=0的无效假设,反之亦然。实际计算时:,2019/10/5,34,例14.2 试用方差分析对例13.1资料的样本回归方程作假设检验。(1)建立检验假设,确定检验水准H0:β=0 ,体重和双肾体积之间无直线回归关系。H1:β≠0 ,体重和双肾体积之间有直线回归关系。α=0.05。(2)计算检验统计量,2019/10/5,35,(3)确定P值,作出推断结论ν1=ν回=1,ν2=ν残=n-2=13,查附表4,F界值表, F0.01(1,13)=9.07,现F F0.01(1,13),即P0.01。在α=0.05水准上,拒绝H0,接受H1,回归方程有统计学意义,可以认为正常成年人体重和双肾体积之间有直线回归关系。,2019/10/5,36,表14.2 直线回归的方差分析表,(二)t检验,,ν=n-2,式中,Sb为b的标准误;Sy.x为剩余标准差,是指扣除x对y的影响后,y对于回归直线的离散程度。,2019/10/5,37,例14.3 试用t检验对例13.1资料的样本回归方程作假设检验。(1)建立检验假设,确定检验水准H0:β=0 ,体重和双肾体积之间无直线回归关系。H1:β≠0 ,体重和双肾体积之间有直线回归关系。α=0.05。(2)计算tb值,2019/10/5,38,(3)确定P值,作出推断结论ν=n-2=15-2=13,查附表3,t界值表,得P0.001。在α=0.05水准上,拒绝H0,接受H1,回归方程有统计学意义,可以认为正常成年人体重和双肾体积之间有直线回归关系。方差分析和t检验的关系为: ,如本例6.530= 。所以对同一资料,方差分析和t检验假设检验的结论是一致的。,2019/10/5,39,四、总体回归系数β的置信区间样本回归系数b是总体回归系数β点估计值, β双侧(1-α)的置信区间可由下式计算,例14.4 计算例13.1资料的总体回归系数β的95%置信区间。b=2.465,Sb=0.3775,t0.05/2,13=2.160,(2.465-2.160×0.3775 , 2.465+2.160×0.3775)=(1.650,3.280)该区间不包括0,说明和回归系数假设检验的结论是一致的。,2019/10/5,40,五、决定系数,R2取值在0到1之间,且无单位。它反映了回归贡献的相对程度,即在因变量y的总变异中回归关系所能解释的比例。例如在例13.1资料,SS回= 15534.927,SS总=20270.495,,说明成年男性体重信息可以解释双肾体积变异的76.64%,还有剩余的23.36%的信息则通过体重以外的因素来解释。,2019/10/5,41,六、直线回归分析的应用(一) 总体均数的置信区间在直线回归方程的计算中,给定的xi算出的 只是总体均数 点估计值。由于抽样误差的存在, 是有波动的。其抽样误差的标准误计算公式为:,的双侧(1-α)置信区间为:,2019/10/5,42,本书例14.1成年男性腰围与腹腔内脂肪面积的研究中,回归方程为,已算出Sy.x=13.03535,lxx=950.778, =90.990,x1=81.3,代入上式计算,2019/10/5,43,当α=0.05时,t0.05/2,18=2.101, 则 的95%置信区间为75.19397±2.101×5.0276=(64.63,85.76)用同样的方式计算出每个xi对应的 置信区间,以x为横坐标,y为纵坐标,将置信区间的上下限分别连接起来形成两条弧形线间的区域称为回归直线的置信带(confidence band)。由上述因变量总体均数标准误计算公式看出,当xi= 时,标准误达到最小值 ,其对应的置信带最窄,越远离该均数点,置信带宽度越大。,2019/10/5,44,图14.3 总体均数 置信区间和个体y值的预测区间,2019/10/5,45,,(二) 因变量个体y值的预测区间利用回归方程进行预测是回归方程的重要应用。也就是将已知自变量x代入直线回归方程,可得到应变量y的估计值 。对于给定的xi,计算得 只是y的均值,y的预测值也存在波动范围,其标准差为Sy|xi,按下式计算:,x=xi时个体y值的双侧(1-α)预测区间为,2019/10/5,46,仍以例14.1资料x1=81.3 为例,其预测值y的标准差为,y1 值的95%预测区间为,用同样的方式计算出每个xi对应的yi值 95%预测区间,以x为横坐标,y为纵坐标,将预测区间的上下限分别连接起来形成两条弧形线间的区域称为y值的预测带(prediction interval)。,2019/10/5,47,(三)利用回归方程进行统计控制 统计控制(statistical control)是利用回归方程进行逆估计,即要求应变量y值在一定范围内波动,进一步来得到自变量x的取值,然后通过x取值来控制y的变化。例 在硝酸钠的溶解实验中,测得在不同温度(℃)x下,溶解于100份水中的硝酸钠份数y的数据见下表。若要求溶解于100份水中的硝酸钠份数在80份以上,温度如何控制?(设α=0.05),2019/10/5,48,表 不同温度下溶解于100份水中的硝酸钠份数,由原始数据计算可知:,α=0.05,ν=9-2=7,单侧t0.05,7=1.895。本例要求溶解于100份水中的硝酸钠份数y在80份以上,对应于个体y值的95%预测区间单侧下限值为:,2019/10/5,49,当 =80时,通过上式解得xi=16.56(℃),即把温度控制在16.56℃以上,就有95%的可能是溶解于100份水中的硝酸钠分数控制在80份以上。第四节 进行直线相关与回归分析时应注意的问题(一)作相关回归分析要有实际意义。不要把毫无联系的两种现象作相关回归分析。,2019/10/5,50,,,(二)相关关系不一定是因果关系,也可能是伴随关系。当事物间的内在联系尚未被认识时,相关分析可为理论研究提供依据。(三)在进行直线相关与回归分析之前,应先绘制散点图。当观察到点的分布呈直线趋势时,方可进行分析,如散点图呈曲线趋势,应进行曲线回归分析。(四)回归方程一般只适用于自变量x的原始数据范围内,不能任意外延。因为超出这个范围,x与y就不一定仍然呈直线关系。,2019/10/5,51,(五)直线相关与回归的区别 1.资料要求 相关分析要求两变量x与y均为服从正态分布的随机变量,即两者都不能预先指定;回归分析要求y是正态随机变量,而x可以不是正态随机变量而是一确定值,此时回归分析称为Ⅰ型回归,x也可以是正态随机变量,此时回归分析称为Ⅱ型回归。2.意义 相关系数r反映两变量的相关关系的方向和密切程度;回归系数b反映两变量间的依存关系,即表示x每改变一个单位所引起的y的平均改变量。,2019/10/5,52,3.应用 说明两变量间的相关程度及相关方向用相关分析;说明两变量间的依存变化的数量关系用回归分析。4.取值范围 -1≤r≤1; -∞b ∞.5.计算公式,2019/10/5,53,,,(六)直线相关与回归的联系1.在同一组数据,相关系数r与回归系数b的符号一致。2.同一组数据,r与b的假设检验是等价的,即tr=tb。因r的假设检验可直接查表,较为简便,故可代替b的假设检验。3回归分析中决定系数R2=SS回归/SS总即为相关系数的平方。说明|r|越接近1,回归效果越好。,2019/10/5,54,思考题 1.相关系数与回归系数的联系与区别是什么?2.应用直线相关和回归分析时应注意哪些问题?3.举例说明如何用直线回归方程进行预测和控制?4.剩余标准差的意义与用途?5. 的总体均数置信区间和个体y值的预测区间的意义有何不同。,2019/10/5,55,,Thank You !,
展开阅读全文
  微传网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:第十三、十四章 直线相关与回归分析(11讲).ppt
链接地址:https://www.weizhuannet.com/p-10071065.html
微传网是一个办公文档、学习资料下载的在线文档分享平台!

网站资源均来自网络,如有侵权,请联系客服删除!

 网站客服QQ:80879498  会员QQ群:727456886

copyright@ 2018-2028 微传网络工作室版权所有

     经营许可证编号:冀ICP备18006529号-1 ,公安局备案号:13028102000124

收起
展开