Hor*_*ice 9 statistics nlp artificial-intelligence machine-learning
在选择相似性指数时要考虑哪些决定性因素.在什么情况下,欧几里德距离优于皮尔逊,反之亦然?
Jan*_*ary 16
相关性与单位无关; 如果您将其中一个对象缩放十次,您将获得不同的欧氏距离和相同的相关距离.因此,当您想要测量诸如由其表达谱定义的基因之类的对象之间的距离时,相关度量是非常好的.
通常,绝对或平方相关被用作距离度量,因为我们对关系的强度比对其符号更感兴趣.
但是,相关性仅适用于高维数据; 对于二维或三维数据点几乎没有计算它的点.
还要注意,"Pearson距离"是欧几里德距离的加权类型,而不是使用Pearson相关系数的"相关距离".
小智 6
这实际上取决于您手头的应用场景.简而言之,如果您正在处理属性值的实际差异很重要的数据,请使用欧几里德距离.如果您正在寻找趋势或形状相似性,那么请使用相关性.另请注意,如果在每个对象中执行z-score标准化,则欧几里德距离的行为与Pearson相关系数类似.Pearson对数据的线性变换不敏感.还有其他类型的相关系数仅考虑值的等级,对线性和非线性变换都不敏感.注意,通常使用相关性作为相异性是1 - 相关性,其不考虑度量距离的所有规则.
有一些关于特定应用选择接近度量的研究,例如:
Pablo A. Jaskowiak,Ricardo JGB Campello,Ivan G. Costa Filho,"聚类基因表达微阵列数据的接近度量:验证方法和比较分析",IEEE/ACM计算生物学和生物信息学交易,第一卷.99,不.PrePrints,p.1,,2013
| 归档时间: |
|
| 查看次数: |
9846 次 |
| 最近记录: |