• / 24
  • 下载费用:10 金币  

生物统计学 总结.doc

关 键 词:
生物统计学 总结.doc
资源描述:
生物统计学 总结绪论统计工作的四大步骤:设计、搜集、整理、分析统计资料的三大类型: 计量资料:对每个观察值单位用定量方法测得每项指标量的大小所得的资料 计数资料:将观察单位按照某种属性类别分组,所得的观察单位数 等级资料:将观察单位按某种属性的不同程度分组所得的资料同质与变异同质:除研究因素外,其他因素相同或相近为同质变异:观测值的不齐性总体与样本:总体:根据研究目的所确定的同质观察单位的全体=所有研究对象性质相同的全体观察单位某项变量值的集合总体含量:总体中所包含的观察单位数有限总体:总体观察单位数可数无限总体:总体观察单位数不可数样本:从总体中随机抽取的部分观察单位样本含量:样本中所包含的观察单位数抽样:从总体中获得样本的过程放回式抽样不放回式抽样抽样误差:因个体变异的存在,由抽样而导致的样本指标与总体指标之差统计量:有样本所得指标或数参数:由总体所得指标,关于特征的表征频数:完全相同的观察只出现的次数频率:某一观察值出现的次数与样本含量的比值概率:描述某事物发生可能性大小的一个度量样本空间:一次实验所有可能的结果的集合基本事物:样本空间每一个可能的结果小概率事件:P120 个)才足够稳定,所以当样本含量不够大时,不宜取两端百分位数3)用百分位数确定正常值范围,习惯上 95%离散趋势的描述1. 极差 R:样本资料中最大值和最小值之差在一定程度上能说明样本波动幅度的大小,但它只受样本中两个极端个体数值大小的影响,不能反映样本中各个观测值的变异程度,稳定性差2. 四分位数间距:是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小.稳定性好,灵敏度不够3. 标准差:1) 定义:描述一组同质计量资料离散程度大小的指标反映了均数对一组观察值的代表性说明了观察值围绕均数分布的离散程度,个体变异2) 计算:3) 应用:1. 表示变量分布的离散程度2. 结合均数描述正态分布特征3. 结合均数计算变异系数4. 结合样本含量计算标准误4) 注意:(1 ) 不同单位,相同标准差,不能比较(2 ) 大个体差异大,变异度大,小个体则变异度小4.变异系数 CV1) 定义:标准差与均数之比,用百分数表示2) 计算:3) 应用:单位不同的几组资料变异度及均数相差悬殊的几组资料的变异度的比较,不单独使用自由度 ν泛指可以自由取值的变量的个数正常值:正常动植物解剖生理生化等各种数据的波动范围1) 必要性1. 区分正常和异常2. 看不同种群在不同时间地域上某一指标的差异2) 选取1. 极差中的一部分2. 单侧或双侧正常值之分,由指标实际情况及实验要求确定3. 方式之一为正常值范围的百分位数,习惯上 95%双侧:确定 P2.5 或 P97.5单侧:P5 或 P95,看实验需要计量资料的统计推断统计推断用样本信息推断总体特征参数估计:由样本结果对总体参数在一定概率水平下所做出的估计假设检验正态分布1) 概念:一种连续型随机变量的概率分布密度函数:分布函数:2) 特征:1. 在横轴上均数处最高2. 以均数为中心,左右对称3. 有两个参数4. 曲线下的面积分布有一定的规律 F(x)3) 应用:1. 以曲线下的面积反映频率及概率分布2. 估计正常值范围或正常值范围的正态分布法双侧正常值范围3. 质量控制4. 正态分布是很多种统计方法的理论基础标准正态分布,u 分布Uα 与面积的关系对数正态分布原观察值 x 呈偏态(正偏) ,取对数后,lgX 呈正态分布x 服从对数正态分布均数的抽样误差1. 定义:平均数与总体均数之差2. 均数抽样误差大小的度量标准误1) 定义:样本均数的标准差2) 意义:反映抽样误差的大小是样本均数围绕总体均数分布的离散程度,衡量了样本均数的可靠程度3) 计算:一般一次抽样估计总体没有标准误,只针对样本4) 用途:(1 ) 计算可信区间(参数估计)(2 ) 用于统计推断(假设检验)t 分布1. t 变换与 t 变量2. t 分布的特征1) 单峰,一 0 为中心,左右对称2) 曲线中间比正态分布低,两端翘得比正态分布高3) 有无数根,中间越低,两端越翘t 分布与自由度有关,自由度越小,中间越低,两端越翘当自由度趋向无穷时,t 分布趋向标准正态分布,tu3. 概率密度函数与分布函数4. t 介值与 t 介值表tα,ν :给定自由度为 ν,两侧双尾面积之和为 α 时,相应 t 值。5. t 分布原理:P(-t α, ν 50总体标准差已知:n50:假设检验为什么做假设检验检验差别是否由抽样误差造成的基本思想假定差别是由抽样误差引起的然后计算由抽样误差引起这么大,甚至比这更大的差别的概率 P根据小概率原理,作出拒绝或者接受假设的判断步骤1. 建立假设,确定检验水准先确定是单侧还是双侧的若考虑 u,u 0 有误差别 双侧若不仅考虑差别,还关注 u,u 0 大小单侧一般认为双侧无效假设 H0:从反证法的基础上提出的,无论何时,假设差别是由抽样误差造成的,但具体问题具体分析备择假设 H1:与 H0 相对立的假设,是依 H0 而产生的,一旦 H0 不成立,只能接受 H1,现在H0 不成立非 H0体现单双侧之分检验水准 α:界定小概率事件的一个标准(有单双侧之分)通常 α=0.052. 选定检验方法,计算统计量3. 确定 P 值,做出统计推断P 值:指由 H0 所规定的总体中做随机抽样,获得等于大于或小于现有统计量的概率。若Pα,接受 H0第一类错误和第二类错误 第一类:拒绝实际上成立的 H0 第二类:不拒绝实际上不成立的 H0客观实际 拒绝 H0 不拒绝 H0H0 成立 第一类错误(α) 推断正确(1-α )H0 不成立 推断正确(1-β ) 第二类错误(β) 可信度 1-α 把握度 β:未知,只能估计,不能单独存在,只有与 H1 结合才有意义 检验效能 1-β:计量总体却有差别,按 α 水准,能够发现他们有差别的能力注意1. 样本的代表性组间的均衡性资料的可比性2. 选用的假设检验方法一定要符合其适用条件3. 正确理解差别有无显著性的含义(显著、极显著 不意味着差别的大小)4. 结论不能绝对化5. 报告要规范化检验方法一、完全随机设计(一)样本均数与已知总体均数比较的假设检验1. 小样本,总体标准差 σ 未知t 检验(要求 取自正态总体)𝑥2. 大样本,总体标准差 σ 未知:1) t 检验(严格)法 2 无需来自正态总体2) u 检验(ν∞,t u)法 13. 大样本,总体标准差 σ 已知u 检验(二)两个样本均数比较的假设检验1. 小样本(有一个就算) ,总体标准差 σ 未知,正态方差齐t 检验A. 先求合并方差B. 再求两样本均数差的标准误C. 计算 t 值2. 小样本(有一个就算) ,总体标准差 σ 未知,方差不齐(非正态)1) 采用适当的变量变换使达到方差齐性的要求2) 采用不要求方差齐的方法比较非参数统计3) 采用近似的 t‘检验3. 大样本u 检验(不考虑正态方差齐的情况下,仍可用 t 检验)(三)两个样本几何均数比较的假设检验对 x 取反对数,用 t 检验或者 u 检验(四)多个样本均数的比较(单因素方差分析)条件:1. 个样本是相互独立的随机样本2. 小样本要求正态方差齐*多个样本均数间的两两比较q 检验二、配对设计(一)配对设计的计量资料的比较小样本,t 检验𝑡= 𝑑𝑆𝑑/𝑛三、配伍组设计(一)多个样本均数的比较(两因素方差分析)多个性质相同的配伍,同一配伍组中的 N 个受试对象分别接受 k 种处理作用:1.可改善处理组间的均衡性2.可分析配伍因素的的影响3.提高设计效率,分析两个因素 *多个样本均数间的两两比较q 检验正态性检验一、为什么做正态性检验特定统计方法要求的描述统计 平均数、标准差正常值范围的正态统计法统计推断 t 检验F 检验二、定义判定资料是否服从正态分布或样本是否来自正态总体的一类检验方法三、何时用?1. 为了说明资料是否服从正态分布一定要做2. 为了满足特定统计方法的需要可以不做四、怎么做?正态分布分布的特征:1. 对称性偏度(正偏、对称、负偏)三阶 偏度系数 g1态峰翘度(正态峰、尖峭峰、平阔峰)四阶 峰度系数 g2方差齐性检验一、为什么?1. t 检验 F 检验 使用条件的要求2. 方差的抽样波动二、定义说明变量值的变异度有无差别,或者通过样本信息来推断总体方差是否相等的一类检验方法三、何时做?1. 说明变量值的变异度有无差别时一定做2. 为满足 t、F 检验方差齐性要求的可不做四、如何做?多个方差的齐性检验——X 2 检验变量变换意义:通过改变观察值的原初形式,使资料正太化,达到方差齐性的要求,以满足 t 检验及方差分析的应用条件依据:只改变观察值的分布形式,而不是其相对大小常用方法:1) 对数变换:以观察值 x 的对数值作为新的分析数据常用方式 适用场合:1. 使服从对数正态分布的资料正态化2. 使方差达到方差齐性要求,特别是标准差与均数的比值接近时3. 使指数曲线直线化,常用于曲线拟合2) 平方根变换:以原观察值 x 的平方根作为新的分析数据常用方式适用场合:1. 使服从 Poisson 分布的计数资料或轻度偏态资料正态化2. 使各样本的方差与均数的正比例关系消除或削弱,达到方差齐性要求3) 百分数、平方根、正反弦变换以原观察值用百分数表示,平方根反正弦值作为新的分析数据适用场合:总体百分数小于 30%或大于 70%的情形计数资料的统计描述和推断相对数(一)为什么引入绝对数不能做进一步分析(二)什么是相对数同一基础上,两个有联系指标之比*常用指标1.率/频率指标:用以说明某现象发生的频率与强度计算 比 例 基 数可 能 发 生 某 现 象 的 总 数某 现 象 的 发 生 数 比例基数—依习惯而用—使算的的率至少保留 1-2 位整数2.构成比/构成指标:用以说明某一事物内部各组成部分所占的比重或分布→总和为 100%计算 %10位 总 数同 一 事 物 各 组 分 观 察 单某 一 组 分 的 观 察 单 位 数*若总和不为 100%:超减于大,低加在小3.相对比:两个有关同类指标之比,用以说明两者的对比水平计算 %10乙 指 标甲 指 标*指标可为平均数、绝对数、相对数4.动态数列:一系列按时间顺序排列起来的统计指标,用以说明事物延时间发展的变化与趋势*指标可为平均数、绝对数、相对数*动态分析:( 1)绝对增量=统计期指标-基期指标说明事物在一定时期增加的绝对数量可分为逐年的、逐期的:后比前,内部波动累计的:基期固定,总体结果(2)发展速度、增长速度:反映事物在一定时期的速度变化,可分为定基与环基发展速度=统计期指标/基期指标增长速度=发展速度-1(三)应用相对数应注意的问题1.计算相对数的分母一般不宜过小,对于动物实验,可减小2.分析时不能以比代率3.计算观察单位不等的几个率的平均值时,不能直接相加求平均 321Pnx4.资料的对比应注意可比性5.率和构成比也可有抽样误差→假设检验二项分布及其应用(一)概念及其应用条件对于某个性状,常常可以把其资料分成两个类型。即“非此即彼”两种情况,彼此构成对立事件,我们把这种“非此即彼”事件所构成的总体,称为二项总体,其概率分布称为二项分布。1. 二项分布的概率密度函数:重复做①n 次相互独立的实验,每次实验②有相互独立的结果,③P(A)=Π P( )=1-Π,则 n 次实验中 A 恰好发生 x 次的概率A2. 实验有①②③,则可用二项分布处理3. 分布函数4. 特征:Π=0.5 对称,正态0.3≤Π≤0.7 近似对称,近似正态Π0.7 或 Π40,Ti5 时,上式①近似 X2*可以利用 X2 值检验实际频数与按假设检验计算的理论频数是否相等的问题*如果假设成立,那 X2 ≈ 0;不应出现大 X2 的概率 P40,T5𝑋2=∑(𝐴‒𝑇)2𝑇四格表资料处理 阳性数 阴性数 合计 阳性率1 a b a+b2 c d c+d 𝑇𝑅𝐶=𝑛𝑅∙𝑛𝐶𝑛𝑇𝑚𝑖𝑛=𝑛𝑅𝑚𝑖𝑛∙𝑛𝐶𝑚𝑖𝑛𝑛ν =(𝑅‒1)(𝐶‒1)合计 a+c b+d nX2 基本公式的专用公式n40,T5𝑋2= (𝑎𝑑‒𝑏𝑐)2∙𝑛(𝑎+𝑏)(𝑐+𝑑)(𝑎+𝑐)(𝑏+𝑑)X2 校正公式n40,140,140 时可不校正𝑋2=(|𝑏‒𝑐|‒1)2𝑏+𝑐2) 两种处理有无相关(双向有序列联表)𝑋2= (|𝑎𝑑‒𝑏𝑐|‒𝑛2)2(𝑎+𝑏)(𝑐+𝑑)(𝑎+𝑐)(𝑏+𝑑)列联表 X2 检验𝑅×𝐶基本数据中多于四格表用途:1. 多个样本率的比较2. 样本构成比的比较(三个以上)3. 计数资料的相关分析基本思想、基本公式、自由度的计算同前𝑋2=∑𝐴2𝑛𝑅∙𝑛𝐶‒1应用条件:1.n402.1T5 的格子数不能超过总格子数的 1/53.不能有 T1 的格子T 过小的处理:1. 增大样本含量 n2. 合并相应的行或列3. 删除相应的行或列*多个样本率/构成比的比较,结论为拒绝 H0 时,认为有差别,但不知其具体,应两两比较*如果分组标志是双因素的,若其中一组分组标志有序单向有序列联表。若分析构成比X 2 检验,否则用秩和检验(一)多个样本率的比较( 表)𝑘×2(二)两个样本构成比的比较(可推多个) (2 表)×𝑘(三)计数资料的相关分析(双向有序列联表)频数分布拟合优度的 X2 检验— —判定样本频数分布是否符合某一理论𝑃𝑖=𝐹(𝑢2)‒𝐹(𝑢1)=𝐹(𝑥2‒𝜇𝜎 )‒(𝑥1‒𝜇𝜎 )ν =行 ‒1非参数统计*不依赖于总体的分布形式,应用时忽略分布类型是否已知*检验时比较分布而非参数*适用范围广,不受分布形式限制*可用于不能活未能精确测量的资料,尤其适用等级资料或适合于算中位数*前提为变量变换后仍不能达到正态缺点:检验效能低= 参数统计×30%适用场合:①等级资料②偏态分布(经变换后不能正态,近似 L 型)③开口资料④分布不清的⑤方差不齐(经变换后仍不能达到齐性)常用方法:①符号检验 ②秩和检验 ③超越检验 ④游程检验 ⑤等级相关分析秩和检验(一) 配对比较的符号秩和检验(二) 两个样本比较的秩和检验(三) 多个样本比较的秩和检验(四) 多个样本两两比较的秩和检验t 检验相关与回归分析直线相关一、 概念1. 两变量间的关系2. 直线相关分析:找出一个适当的指标来描述两个变量间的直线相关关系、相关密切程度及方向是怎样的3. 适用条件:双变量正态分布或正态双变量二、 相关系数(指标)1. 定义:描述两个变量间有无直线变量关系及密切程度样本r 总体 𝜌2. 意义:通过取值描述不同的相关情形3. 相关系数的计算4. r=0 推出 =0  r 的假设检验 t 检验 𝜌 等级相关用等级数据做直线相关分析适用场合:1.不服从双变量正态分布的2.总体分布型未知的3.原始数据使用等级表示的等级相关系数:表明两变量间的相关密切程度样本 rs 总体 𝜌𝑠rs 的检验: 1.查表法2.t 检验直线回归一、概念研究两变量在数量上的依存关系直线回归方程 y=a+bx+ε*用容易测量的变量推算不易测得的变量*对资料的要求:1.正态双变量:x  y & y  x 的两个方程(不同)2.至少有一个是正态变量,必须是 y要求 x 是精确测定的二、直线回归方程1.一般表达式*数学模型:Y=a+bx+ε*一般表达式:2.系数 a、b 的求法三、 直线回归方程的图示四、 回归系数的假设检验1. 方差分析(F 检验)2. 回归系数 b 的 t 检验五、 回归方程的应用1. 描述两变量间的依存关系2. 以容易测得的变量去推测不易测得的变量3. 利用回归方程进行预测预报(一个区间)把变量 x 带入回归方程中去估计 Y4. 利用直线回归方程进行控制六、 应用注意1. 要有实际意义2. 资料要符合要求3. 自变量和因变量的选择要符合实际4. 直线回归的范围只限于取得原始资料的范围5. 直线回归方程可以内插,一般不能外延6. 回归方程必须经过检验七、 相关与回归的区别与联系区别 相关 回归资料要求 正态双变量 至少有一个为正态变量意义 反映相关关系 反映依存关系应用 说明有无相关关系 说明有无依存关系r b意义 描述两变量间有无相关关系及相关的密切程度和方向的指标 x 增减一个单位,y 平均改变 b 个单位范围 [-1,1] (-∞ ,+∞)单位 无 y 单位或 x 单位联系:1. 对同一正态双变量资料,如果计算得 r、b,则 r 与 b 符号一致2. 相关系数的假设检验与回归系数的假设检验一致,对同一资料,tr=tb3. r 与 b 的数值关系:4. 回归可解释相关曲线拟合1. 用途:1) 修匀(变成平滑曲线)2) 估计(x, y 之间不是函数关系)3) 求极值及极值点(拟合二次曲线,三次曲线特有用途)2. 步骤:1)曲线定型:根据资料的性质和散点图的趋势(可多定几个,剩余平方和小的好)2)对称化和直线化:通过变量变换以减弱或消除原散点图的曲线趋势(直线化)通过变量变换以减弱或消除原散点图的不对称趋势(对称化)3)按直线回归,求 a’,b’,会带到原曲线方程中去4)计算 y 与 y,算残差(逐个算)y-y 进行残差分析5)做曲线图(专门软件)6)做假设检验(对直线化的直线回归方程中的 b’做)3.常见的曲线形及直线化调查设计设计:为达到某种目的,所准备采取的方法、母的、途径等的有机结合,事件进行前完成统计设计:抛开具体问题,共性是数据的收集、整理、分析,一个好的设计包括以上全过程,应使三阶段前后呼应连为整体,保证调查和实验准确进行,节省人力、财力、时间。调查设计包含:调查计划、整理分析计划一、 调查计划1. 明确目的和指标估计范围、比较差别、寻找关系指标要求:具体、精选、尽量用客观、有特异性的、计量指标2. 确定调查对象、观察单位(样方、采样点)根据目的和指标确定实质为划定同质总体范围3. 确定调查方法(抽样?全面?典型?)4. 收集原始资料的方式*直接观察(观测)*采访、访谈、信访5. 确定调查项目、调查表项目:1) 分析项目2) 备查项目调查表:1) 一览表:多个观察单位,项目少2) 卡片:一个调查单位一张表,项目多6. 制定调查的组织计划二、 整理分析计划1. 设计分组2. 设计整理表3. 确定归组方式四种基本抽样方法1. 单纯随机抽样2. 分层抽样3. 系统抽样4. 整群抽样样本含量的估计样本含量的计算方法实验设计(笔记)
展开阅读全文
  微传网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:生物统计学 总结.doc
链接地址:https://www.weizhuannet.com/p-8793706.html
微传网是一个办公文档、学习资料下载的在线文档分享平台!

网站资源均来自网络,如有侵权,请联系客服删除!

 网站客服QQ:80879498  会员QQ群:727456886

copyright@ 2018-2028 微传网络工作室版权所有

     经营许可证编号:冀ICP备18006529号-1 ,公安局备案号:13028102000124

收起
展开