• / 5
  • 下载费用:10 金币  

向量的相似度计算常用方法9个.doc

关 键 词:
向量的相似度计算常用方法9个.doc
资源描述:
向量的相似度计算常用方法相似度的计算简介关于相似度的计算,现有的几种基本方法都是基于向量(Vector)的,其实也就是计算两个向量的距离,距离越近相似度越大。在推荐的场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面我们详细介绍几种常用的相似度计算方法。共 8种。每人选择一个。第 9题为选做。编写程序实现(这是第一个小练习,希望大家自己动手,java 实现)。计算两个向量的相似性:向量 1(0.15, 0.45, 0.l68, 0.563, 0.2543, 0.3465, 0.6598, 0.5402, 0.002)向量 2(0.81, 0.34, 0.l66, 0.356, 0.283, 0.655, 0.4398, 0.4302, 0.05402)1、皮尔逊相关系数(Pearson Correlation Coefficient)皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度,它的取值在 [-1,+1] 之间。sx, sy是 x 和 y 的样品标准偏差。类名:PearsonCorrelationSimilarity 原理:用来反映两个变量线性相关程度的统计量 范围:[-1,1],绝对值越大,说明相关性越强,负相关对于推荐的意义小。 说明:1、 不考虑重叠的数量;2、 如果只有一项重叠,无法计算相似性(计算过程被除数有 n-1);3、 如果重叠的值都相等,也无法计算相似性(标准差为 0,做除数)。 该相似度并不是最好的选择,也不是最坏的选择,只是因为其容易理解,在早期研究中经常被提起。使用 Pearson线性相关系数必须假设数据是成对地从正态分布中取得的,并且数据至少在逻辑范畴内必须是等间距的数据。Mahout 中,为皮尔森相关计算提供了一个扩展,通过增加一个枚举类型(Weighting)的参数来使得重叠数也成为计算相似度的影响因子。2、欧几里德距离(Euclidean Distance)最初用于计算欧几里德空间中两个点的距离,假设 x,y 是 n 维空间的两个点,它们之间的欧几里德距离是:可以看出,当 n=2 时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。类名:EuclideanDistanceSimilarity 原理:利用欧式距离 d定义的相似度 s,s=1 / (1+d)。 范围:[0,1],值越大,说明 d越小,也就是距离越近,则相似度越大。 说明:同皮尔森相似度一样,该相似度也没有考虑重叠数对结果的影响,同样地,Mahout 通过增加一个枚举类型(Weighting)的参数来使得重叠数也成为计算相似度的影响因子。3、 Cosine 相似度(Cosine Similarity)Cosine 相似度被广泛应用于计算文档数据的相似度:类名: UncenteredCosineSimilarity 原理:多维空间两点与所设定的点形成夹角的余弦值。 范围:[-1,1],值越大,说明夹角越大,两点相距就越远,相似度就越小。 说明:在数学表达中,如果对两个项的属性进行了数据中心化,计算出来的余弦相似度和皮尔森相似度是一样的,在 mahout中,实现了数据中心化的过程,所以皮尔森相似度值也是数据中心化后的余弦相似度。另外在新版本中,Mahout 提供了 UncenteredCosineSimilarity类作为计算非中心化数据的余弦相似度。4、 Tanimoto 系数(Tanimoto Coefficient)Tanimoto 系数也称为 Jaccard 系数,是 Cosine 相似度的扩展,也多用于计算文档数据的相似度:类名:TanimotoCoefficientSimilarity 原理:又名广义 Jaccard系数,是对 Jaccard系数的扩展,等式为 范围:[0,1],完全重叠时为 1,无重叠项时为 0,越接近 1说明越相似。 说明:处理无打分的偏好数据。5、曼哈顿距离类名:CityBlockSimilarity 原理:曼哈顿距离的实现,同欧式距离相似,都是用于多维数据空间距离的测度 范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。 说明:比欧式距离计算量少,性能相对高。曼哈顿距离公式:6、马氏距离7、兰氏距离公式8、切比雪夫距离公式第 9 题为选做题。感兴趣的就做,不感兴趣可以不做。9、Hausdorff distanceThe Hausdorff distance measures the distance between sets of points. It captures the “ma
展开阅读全文
  微传网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:向量的相似度计算常用方法9个.doc
链接地址:https://www.weizhuannet.com/p-9782502.html
微传网是一个办公文档、学习资料下载的在线文档分享平台!

微传网博客

网站资源均来自网络,如有侵权,请联系客服删除!

 网站客服QQ:80879498  会员QQ群:727456886

copyright@ 2018-2028 微传网络工作室版权所有

     经营许可证编号:冀ICP备18006529号-1 ,公安局备案号:13028102000124

收起
展开