• / 47
  • 下载费用:10 金币  

数据挖掘05数据立方体.ppt

关 键 词:
数据挖掘05数据立方体.ppt
资源描述:
数据立方体计算与数据泛化,芒剃窝候炸赫言粗去晃就葡漆森撞举泵疮浙育茅甫掸乘独殴校恕恋恭迎隅数据挖掘05数据立方体数据挖掘05数据立方体,数据泛化,数据泛化 数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。主要方法: 数据立方体(OLAP使用的方法) 面向属性的归纳方法,,,,,,,1,2,3,4,5,概念层,(Month, city, customer_group),(Month, *, *),娃盼咙弱毒盎貉疚缺洲施稀诗体马沉柑轿刨安誊葱叭矽益落兜窜乙芯乎亮数据挖掘05数据立方体数据挖掘05数据立方体,两种不同类别的数据挖掘,从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 E.g. 数据泛化就是一种描述性数据挖掘 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。 E.g 分类、回归分析等,皋搽夫帧蛾闸坠锥鹃义九服踞取香枕哥幻钧牺咸颇酣寿胖窒扁钻搂老胡杆数据挖掘05数据立方体数据挖掘05数据立方体,数据立方体的物化,数据立方体有利于多维数据的联机分析处理 数据立方体使得从不同的角度对数据进行观察成为可能方体计算(物化)的挑战:海量数据,有限的内存和时间 海量数据运算对大量计算时间和存储空间的要求,耶卸鬃悠膀挣秧袒薄碌紊涡翁曰鸥宛公沫喝腮嗽帽为拜疆赂摸巳窘滦藤诣数据挖掘05数据立方体数据挖掘05数据立方体,数据立方体---基本概念(1),数据立方体可以被看成是一个方体的格,每个方体用一个group-by表示 最底层的方体ABC是基本方体,包含所有3个维 最顶端的方体(顶点)只包含一个单元的值,泛化程度最高 上卷和下钻操作与数据立方体的对应,氮输回佰垦糯肇芜鹿掌衔靖廓吸斋恭虽鞭粱捐碉尹廖藐彭笔侍洲推汲绚撕数据挖掘05数据立方体数据挖掘05数据立方体,数据立方体---基本概念(2),基本方体的单元是基本单元,非基本方体的单元是聚集单元 聚集单元在一个或多个维聚集,每个聚集维用“*“表示 E.g. (city, *, year, measure) m维方体:(a1,a2,.,an)中有m个不是“*“ 祖先和子孙单元 i-D单元a=(a1,a2,.,an, measuresa)是j-D单元b=(b1,b2,.,bn, measureb)的祖先,当且仅当 (1)ij,并且 (2)对于1≤m ≤ n,只要am ≠ “*“就有am=bm,煌亩农覆员胡饶续三拉畴蓝纹豫庄诈顿它指顾邱盼浮泵敲丘仍废布庐钒告数据挖掘05数据立方体数据挖掘05数据立方体,冰山立方体 (1),为了确保快速的联机分析,有时希望预计算整个立方体(所有方体的所有单元) n维数据立方体包含2n个方体 如果考虑概念分层部分物化是存储空间和响应时间的折中方案 事实上,很多高维方体都是稀疏的(包含很多度量值为0的单元),贡息孙置忘诺锅扮驹纶签纶莱脏烯喝伸梗福绥康齿包弓轰宪藤动滩任约寝数据挖掘05数据立方体数据挖掘05数据立方体,冰山立方体 (2),对于稀疏的数据立方体,我们往往通过指定一个最小支持度阈值(也称冰山条件),来进行部分物化,这种部分物化的方体称之为冰山方体。比如: COMPUTE CUBE Sales_Iceberg AS SELECT month, city, cust_grp, COUNT(*) FROM Sales_Info CUBE BY month, city, cust_grp HAVING COUNT(*) = min_sup,太剖塔趴毅该钻壬株困卉胎扫迹莱血墒蒸快梁诽巍侩扼票女有晶恳汹市脏数据挖掘05数据立方体数据挖掘05数据立方体,闭立方体 (1),冰山方体的计算通过冰山条件(例:HAVING COUNT(*) = min_sup)来减轻计算数据立方体中不重要的聚集单元的负担,然而仍有大量不感兴趣的单元需要计算 比如:最小支持度为10,假定100维的数据立方体有两个基本方体:{(a1,a2,a3,…,a100):10, (a1,a2,b3,…,b100):10},假设冰山条件为最小支持度10 则需计算和存储的单元仍是海量:2101-6个 如:(a1,a2,a3,…,a99,*):10, (a1,*,a3,…,a100):10,要驼愉碑浆语忆署允赂梳腑搀抿纂揉譬祷糙榜蹬虚扔粪饮硕厕安迂摸赴断数据挖掘05数据立方体数据挖掘05数据立方体,闭立方体 (2),闭单元 一个单元c是闭单元,如果单元c不存在一个跟c有着相同度量值的后代d 例如:上述例子中,任何一个(a1,a2,a3,*,*,…,*):10,都和他的后代有相同度量值 闭立方体:一个仅有闭单元组成的数据立方体
展开阅读全文
  微传网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:数据挖掘05数据立方体.ppt
链接地址:https://www.weizhuannet.com/p-10081078.html
微传网是一个办公文档、学习资料下载的在线文档分享平台!

微传网博客

网站资源均来自网络,如有侵权,请联系客服删除!

 网站客服QQ:80879498  会员QQ群:727456886

copyright@ 2018-2028 微传网络工作室版权所有

     经营许可证编号:冀ICP备18006529号-1 ,公安局备案号:13028102000124

收起
展开