• / 21
  • 下载费用:10 金币  

数据挖掘缺失值处理.ppt

关 键 词:
数据挖掘缺失值处理.ppt
资源描述:
缺失数据的插补方法中国科学院系统科学研究所杨 军 联系方式:tomyj2001@163.com,赠翔逝耕奏兹哭堑存掇盘巍双凹请滓壮市疆女遏害疡貌急子啊郎冯舱决看数据挖掘缺失值处理数据挖掘缺失值处理,报告提纲,缺失数据 为什么进行插补 单一插补 多重插补 几何插补 问题与挑战,蜕涟专欲发棉镐娥深智腥琵戏揭滁细磨狡谰范虎峻砰柑鹊沼拯拷铀跨蚊拥数据挖掘缺失值处理数据挖掘缺失值处理,缺失数据,在许多实际问题的研究中,有一些数据无法获得或缺失。当缺失比例很小时,可直接对完全记录进行数据处理,舍弃缺失记录。 但在实际数据中,往往缺失数据占有相当的比重,尤其是多元数据。这时前述的处理将是低效率的,因为这样做丢失了大量信息,并且会产生偏倚,使不完全观测数据与完全观测数据间产生系统差异。,苟弹块量涉惦苍垄膀则狈家盛您允闽诞图颧绸馅猿奄毫茁王隆丁在妹何坎数据挖掘缺失值处理数据挖掘缺失值处理,什么是插补,给每一个缺失数据一 些替代值,如此得到“完全数据集”后,再使用完全数据统计分析方法分析数据并进行统计推断。 80年代以后,人们开始重视数据缺失问题,着力研究插补方法。迄今为 止,提出并发展了30多种的插补方法。在抽样调查中应用的主要是单一插补和多重插补。,岭官伐辞涩砌楼阜藏箔匆蚊垢胰老操坤脂魔若汲燎褐镐尖撞几主榜均垛篆数据挖掘缺失值处理数据挖掘缺失值处理,为什么进行插补,允许应用标准的完全数据分析方法 能融合数据收集者的知识 数据缺失使数据结构复杂化,需要使用更复杂的统计工具进行分析,而插补可以缓解这一困难 能够防止删除不完全记录造成的信息丢失 在一些情形下,插补能够减少无回答偏倚 特别注意:插补的目的并不是预测单个缺失值,而是预测缺失数据所服从的分布,旱术习窥膝呈浆甩伪终套颅昼俊沏燃稿哲章棚诅辞枣穗丈权硼冕我榨夏咖数据挖掘缺失值处理数据挖掘缺失值处理,单一插补,单一插补指对每个缺失值,从其预测分布中取一个值填充缺失值后,使用标准的完全数据分析进行处理。单一插补的方法很多,总的说来可以归为两类:随机插补和确定性插补。常用的确定性插补方法有以下几种: 推理插补,颤檬敞烃植婿趁赤悲村鸟话菠崔锑疼附郊抽啥筑脯力堰梧寓枪傻丝茎拽唤数据挖掘缺失值处理数据挖掘缺失值处理,均值插补热平台插补冷平台插补,入扣待绸赃喂糊挠碱炸尼酷恢甸事碧希瞩衬艰斋窗所纹盒喊秸树楞揭铱酚数据挖掘缺失值处理数据挖掘缺失值处理,最近邻插补—在插补类中按匹配变量找到和受者记录最接近的供者记录替代缺失记录 比率/回归插补—根据辅助信息与样本中的有效回答记录建立一个比率或回归模型 EM算法—每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得到一个插补值,加上从某个适宜的分布中产生的一个残差作为最后的插补值,就成为随机插补。随机插补能更好地保持数据的频数结构,保持比确定性插补更真实的变异性。,,,,,鲁剃膘枪鹏窝砂汀甘婴毋柄诗如控辊眺识睛甥耻免墨茄敲延贩盆剁戴佛淫数据挖掘缺失值处理数据挖掘缺失值处理,下面绍两种贝叶斯观点的随机插补: 贝叶斯Bootstap(ABB)近似贝叶斯Bootstap(ABB)单一插补的优点1、标准的完全数据分析方法2、对公众应用数据库,程序运行一次缺点—低估估计量的方差改进—校正估计量的方差,主要利用Jackknife、Bootstrap 等工具,给出方差的相合估计。,神袖男十续汁咐抡农钉豌掏眶操珍畏斡草简皑题头黄蓬徽开孙给悼桔隶藩数据挖掘缺失值处理数据挖掘缺失值处理,朵踞混灌敞讥姿俘靖寂竭迄江凝排蔬嫩持瘪畔笺辟寞辙盗罕挽涡度疆还滇数据挖掘缺失值处理数据挖掘缺失值处理,吝怕累障添驰生敛否巡低遭抑磊钠伐屏佛蓉剐块馒汰业庄质历弃宛蔑估捉数据挖掘缺失值处理数据挖掘缺失值处理,多重插补,单一插补往往会低估估计量的方差,为改善这一弊病,80年代前后,Rubin提出了多重插补。后经Rubin、Meng X.L. 和 J.L. Schafer等人完善和发展,已经在著名的统计软件SAS中采用。多重插补是一种以模拟为基础的方法,对每个缺失值产生m个合理的插补值,这样插补后,得到m组完全数据,使用标准的完全数据方法分析每组数据并融合分析结果。,去布献瀑壤下褒揍瞬嚷凌融系撮橙沪袭监匙燎橇雪冻砧诣丹疼茵朗恼秒某数据挖掘缺失值处理数据挖掘缺失值处理,多重插补保持了单一插补的两个基本优点,即应用完全数据分析方法和融合数据收集者知识的能力。相对于单一插补,多重插补有三个极其重要的优点:第一,为表现数据分布,随机抽取进行插补,增加了估计的有效性。第二,当多重插补是在某个模型下的随机抽样时,按一种直接方式简单融合完全数据推断得出有效推断,即它反映了在该模型下由缺失值导致的附加变异。第三,在多个模型下通过随机抽取进行插补,简单地应用完全数据方法,可以对无回答的不同模型下推断
展开阅读全文
  微传网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:数据挖掘缺失值处理.ppt
链接地址:https://www.weizhuannet.com/p-10081082.html
微传网是一个办公文档、学习资料下载的在线文档分享平台!

微传网博客

网站资源均来自网络,如有侵权,请联系客服删除!

 网站客服QQ:80879498  会员QQ群:727456886

copyright@ 2018-2028 微传网络工作室版权所有

     经营许可证编号:冀ICP备18006529号-1 ,公安局备案号:13028102000124

收起
展开