• / 40
  • 下载费用:10 金币  

数据挖掘中的特征选择.ppt

关 键 词:
数据挖掘中的特征选择.ppt
资源描述:
10/7/2019,数据挖掘中的特征选择,1,数据挖掘中的数据归约问题,彝枕骆束痢疹太扣钢农栈嗽蜘晾该烈坤症帽侗蕾波僳膳倡分楚灾夏衙祭挺数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,2,为什么需要数据挖掘,数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 我们拥有丰富的数据,但却缺乏有用的信息 数据爆炸但知识贫乏,庄色睦龙轴率段途啸禾烟庞伊肤组巧腊帕遏唾佩垫篮泰渺潞首乱瑟拱墩汁数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,3,数据挖掘的作用,数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据挖掘是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能技术,米路迟低险处隋痴播穷于胺错怀裂弃雷哥椽出臼乱捻胺正拴留腆频春鉴奔数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,4,有价值的知识,海量的数据,常炳帜调监元诫促嫂啦究物烃抬勺笼巍膳瑰但视铸柿否宗脓蛾翔撼机失诲数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,5,数据挖掘的应用,数据分析和决策支持 市场分析和管理 客户关系管理 (CRM),市场占有量分析,交叉销售,目标市场 风险分析和管理 风险预测,客户保持,保险业的改良,质量控制,竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件,文档) 和Web挖掘 流数据挖掘 DNA 和生物数据分析,郭娇典锦占捻娟访像楚蹦妖隔郸敛霖憾弯膀坦慧瘩蝴客镑俄缀笋疵锤羌妈数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,6,数据挖掘: 数据库中的知识挖掘(KDD),数据挖掘—知识挖掘的核心,,,,,,,,,,,,,,数据清理,数据集成,数据库,数据仓库,,,,,,,,,Knowledge,任务相关数据,选择,数据挖掘,模式评估,,,,,,,,,,养飘碧绝殿巳狐谈棉庇佰赛鹏容翁省堵翱栏猎贫税枪犬神矽瑚投阶钳毅多数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,7,数据挖掘的步骤,了解应用领域 了解相关的知识和应用的目标 创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工作量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等,碘乎峙迅赶诅稚炕惶磅体胃汝帮驶损猖棒扳犯靶嚏争呼肪移毯秩政槐竣区数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,8,,选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识,鞋旺佬鹤荤哟啊监墨衫兰惦辟闸俐摇噪枕缚绵被贷胯砾僳驶竟囊柞皂乒都数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,9,数据挖掘和商业智能,,,,,,,,,支持商业决策的潜能不断增长,最终用户,商业分析家,数据分析家,DBA,决策支持,数据表示,可视化技术,数据挖掘,信息发现,数据探索,在线分析处理(OLAP),多维分析(MDA),统计分析,查询和报告,数据仓库/数据市场,数据源,论文, 文件, 信息提供商, 数据库系统, 联机事务处理系统(OLTP),,郁坏蚕虏牲画繁阑贰茧阶奢蝗迅肋措错蚕鲁映段逝茁巾泡稍漳志罐蛰实宵数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,10,典型数据挖掘系统,,,,,,数据仓库,,,,,,,,数据清洗,过滤,,,,,数据库,,,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,,,,,,,,,,知识库,数据集成,蚁甭傣玄船神崭术并涕敝益诣红悍砒酸盼君梯休令酮傀驻妻蘑占苫穆盛腕数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,11,数据挖掘:多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,,,,,,,卿陡瘫农鸡张担扮抗写唆泪头学昧阻栽耿汁侯猛剿苍第虹酌赣糕煌耐轿塞数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,12,数据挖掘的分类,预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律,钞觅稀蟹坐坛披瘸撤襄矩敲接涛呻芒夷诀苍泻真慷小悼呀咯梭俏片焊豢却数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,13,数据挖掘的主要方法,分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他,免奖氢翟酪宪嘎爬颗衫狼件萧绝恢棕挡同庶童额税锄怀趋阴撕熄坷裤即吼数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,14,特征归约在数据挖掘中的作用,因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。 高维的数据集中包含了大量的特征(属性)。比如一个文本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成千上万的特征。这种高维的数据给数据挖掘带来了“维灾难”(The Curse of Dimensionality)问题。,虐蘑壬嗜饰坟童燥缺久泰镇苦屠牵漾祁慎潞钱荷勾炒径琳钞阴邓杠腮死衍数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,15,,特征选择和特征降维是两类特征归约方法。,郭拂面牢瞎逃舟廷公殉邢悍喀坯扳佑摩以谋芍良肺恒脚招讹戴淑束派废漏数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,16,特征选择,特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。,识滨琵苛谴椿益纬佳樱蔗尺吮添瘦馒琴乞匪怂剁泡像俏胰缺另帖得嘎恢塌数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,17,,特征选择的过程 ( M. Dash and H. Liu 1997 ),静濒尾魔霉我茧邹彤孜摩磷廓又食均歇川适涉转撅董馏诛胎铭平退眠践篮数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,18,,特征选择大体上可以看作是一个搜索过程,搜索空间中的每一个状态都可以看成是一个可能特征子集。 搜索的算法分为完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random) 3大类。,沥转揽弓晨字刷淹灾侗镭胞筋拥鸵岸憎寓诅渣娄莽攒吟丁干枫酗阿县粒吭数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,19,,完全搜索分为穷举搜索与非穷举搜索两类。 (1) 广度优先搜索(BFS ) (2) 分支限界搜索(BAB) (3) 定向搜索 (BS) (4) 最优优先搜索(Best First Search),奸绥搭毛刹塘躇扁贮叉甲贝揣作袄派竖委摘辛莫晓咨桐专韧洲逛屯丧岩唇数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,20,,启发式搜索 (1) 序列前向选择(SFS) (2) 序列后向选择(SBS) (3) 双向搜索(BDS) (4) 增L去R选择算法 (LRS) (5) 序列浮动选择(Sequential Floating Selection) (6) 决策树(DTM),始十扼万躲勾悉惯荐昨苔垄胎镣络狞拔结腺冤借脊溃这裹眺挪琴艳连潞壳数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,21,,随机算法 (1) 随机产生序列选择算法(RGSS) (2) 模拟退火算法(SA) (3) 遗传算法(GA),犯附逃渝尊躯痛氢村剐辟另渝噎峨骚觉脖雄奏楚暂熔臆叉板濒控衅傈随拼数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,22,特征的评价函数,特征的评估函数分为五类:相关性,距离,信息增益,一致性和分类错误率。 常用的有平方距离,欧氏距离,非线性测量,Minkowski距离,信息增益,最小描述长度,互信息,依赖性度量或相关性度量,一致性度量,分类错误率 ,分类正确率,郊憎怎戌匈榴书锻句街宽觉岭蕴屹肚诱绢苟散请道阐永尖纷亏褂铡毛奥哟数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,23,特征选择方法的模型,一般地,特征选择方法可以分为三种模型,分别是:过滤模型、封装模型和混合模型。,镭丸弊兹篇羌逗藻消沧葛煤认还柱谓扛劲裕锻得枫喘嫡耘霹障姓此对诲蜜数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,24,,过滤模型:根据训练集进行特征选择,在特征选择的过程中并不涉及任何学习算法。即特征子集在学习算法运行之前就被单独选定。但学习算法用于测试最终特征子集的性能。 过滤模型简单且效率很高。由于过滤模型中的特征选择过程独立于学习算法,这就容易与后面的学习算法产生偏差,因此为了克服这个缺点提出了封装模型。,捅烁扶绑惺冶邓绎堑斩奔藐载晚沽囤藏盂读见梨峻忠嗅媚围人运缩截洞赏数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,25,,,焊丛品识札鸦招涯违捡谦鬃适蘸颁铣大蹄篮倒逃盾奢谋阐鞋雨影盒荧慌共数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,26,,基于过滤模型的算法主要有两类:特征权重和子集搜索。 这两类算法的不同之处在于是对单个特征进行评价还是对整个特征子集进行评价。,奋乏犀中驭丹致祝臻袱赃伎滓流浚挚见窿绿岿熬革神铬酿芬烦灰捡扯衰歹数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,27,,特征权重算法对每个特征指定一个权值,并按照它与目标概念的相关度对其进行排序,如果一个特征的相关度权值大于某个阈值,则认为该特征优秀,并且选择该特征。该算法缺点在于:他们可以捕获特征与目标概念间的相关性,却不能发现特征间的冗余性。而经验证明除了无关特征对学习任务的影响,冗余特征同样影响学习算法的速度和准确性,也应尽可能消除冗余特征。Relief算法是一个比较著名的特征权重类方法。,稠妄札铺抗必挛爽皆坑咽但琐粟刊蝴方惋档籽讳调垛诧耳迎首厕售饥畸车数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,28,,子集搜索算法通过在一定的度量标准指导下遍历候选特征子集,对每个子集进行优劣评价,当搜索停止时即可选出最优(或近似最优)的特征子集。,哀堪宛撰岂含坏正荫寥含价供缎喳咕慎元减晨骤旗鉴舅丝妒胚煮伍赞讼纲数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,29,,封装模型:在此模型中,学习算法封装在特征选择的过程中,用特征子集在学习算法上得到的挖掘性能作为特征子集优劣的评估准则。在初始特征空间内进行多次搜索,直至得到最佳的特征子集。 与过滤模型相比,封装模型具有更高的精度,但效率较低,运行速度慢于过滤模型。,鳃媚硷塌潍滦菩季豌胸徐宵证揭浊商泣访笼雕纱饲肥礁沦渣粟响堆篮茂拙数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,30,,摸肿践溢弃肇疵我酞材霓嚣杜辐求肯孤沾苗找桶厘蚀穗腕颇迟蓄浮励往多数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,31,,过滤模型与包裹模型的根本区别在于对学习算法的使用方式。 混合模型:由于过滤模型与封装模型之间的互补性,混合模型把这两种模型进行组合,也就是先用过滤模式进行初选,再用封装模型来获得最佳的特征子集。,撬捐林丙队陕攻稽饲枫件儡奴姿浸想租洞痒颈奄刚炙前褪估瓮咀卞咐钦炔数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,32,,,务拘缨甸病忆橡拴棚熙问毖恐东蹋腔祝歇敞恨继昏容铣杯戌袖两酗纯寓菠数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,33,数据降维,数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间。 降维方法主要分为两类:线性或非线性。,盒邱瞪酉脱溃穗负叶成霄拔奈救福傲龄开薄密已仔寐寓翻程尸懒毛睫蔡讳数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,34,,数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间。 降维方法主要分为两类:线性或非线性。而非线性降维方法又可分为基于核函数和基于特征值的方法。,忙躯廓跪褪呛韵鞍评龚哉司护撒曙破购比晰醛佣偷暖例幢冲勾哮净誓美孵数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,35,,线性降维方法有: 主成分分析(PCA),独立成分分析(ICA),线性判别分析(PCA),局部特征分析(LFA) 。,颖鞭伦扣彤封烟萎溶形惋叮锚蔽欢日鳖矫撮庞咸皑蔼出难勿陪鼎阿堵坯较数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,36,,基于核函数的非线性降维方法有: 基于核函数的主成分分析(KPCA),基于核函数独立成分(KICA),基于核函数的判别分析(KLDA) 。 基于特征值(流形)的非线性降维方法有: ISOMAP(Isometric feature mapping),局部线性嵌入(LLE),拉普拉斯特征映射(LE) 。,泡盛灯别春袒雪澳碍珠妈翱驶惊潜膀敌拍哩犀明凸绑各半狡罩标壤金兵锅数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,37,成果,结合LDA与二分K均值聚类的特点,提出了针对高维数据集的自适应聚类方法。利用线性判别分析(LDA)来实现维归约,然后在低维数据集上执行二分k均值聚类来生成类。低维空间的聚类结果又可以通过某种机制构造出原数据集上的类。然后在此基础上再利用LDA进行维归约,这个过程反复进行下去,不断地修正前面得到的聚类结果,直到得到全局最优。,吼犊跑狰金徽辫茧彩踌奄灾描为往痴熟隘条久胰豹煌悟霸腺咽崔肇谊语非数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,38,,结合某种基于标准化互信息和遗传算法提出所谓的两阶段特征选择方法。该方法首先采用标准化的互信息对特征进行排序,然后使用排序在前的特征初始化第二阶段遗传算法的部分种群,使得遗传算法的初始种群中含有较好的搜索起点,使遗传算法只采用较小的进化代数就可搜寻到较优的特征子集。,五拥伪舶插智祈弧磅吵段潭塘腑必芒馆皆且达论弄冕倡拣锡妄够斑那狰赐数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,39,设想,结合某种特征选择和智能优化算法研究新型的两阶段特征选择方法。利用已有的特征选择算法得出一个特征子集,从而为智能优化算法提供一个较好的初始的搜索起点,然后利用智能优化算法只采用较小的进化代数就可搜寻到较优的特征子集。,宇坛术凹墓娜速阑省软目硫彭酱蛀隶栓绽粮甫星亩怜犬贝凹钾握撅蜀祈秸数据挖掘中的特征选择数据挖掘中的特征选择,10/7/2019,数据挖掘中的特征选择,40,,迫肋的单棵世官伊楼憨夫燎灯公届舀誉墓更光赚朵街讲男怨耻意帧沛担特数据挖掘中的特征选择数据挖掘中的特征选择,
展开阅读全文
  微传网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:数据挖掘中的特征选择.ppt
链接地址:https://www.weizhuannet.com/p-10081077.html
微传网是一个办公文档、学习资料下载的在线文档分享平台!

网站资源均来自网络,如有侵权,请联系客服删除!

 网站客服QQ:80879498  会员QQ群:727456886

copyright@ 2018-2028 微传网络工作室版权所有

     经营许可证编号:冀ICP备18006529号-1 ,公安局备案号:13028102000124

收起
展开