use*_*330 5 linguistics data-mining text-mining tf-idf cosine-similarity
TF-IDF并且Cosine Similarity是文本聚类的常用组合.每个文档由TF-IDF权重的向量表示.
这就是我的教科书所说的.
使用余弦相似度,您可以计算这些文档之间的相似性.
但为什么这些技术一起使用呢?
有什么好处?
可以使用例如Jaccard Similarity吗?
我知道,它是如何工作的,但我想知道,为什么这些技术正是如此.
TF-IDF 是使用的权重。
余弦是使用的度量。
您可以使用不加权的余弦,但结果通常会更糟。Jaccard 在集合上工作 - 如何使用权重而不将其变成其他东西而不使其与余弦相同并不明显。
| 归档时间: |
|
| 查看次数: |
524 次 |
| 最近记录: |