“在大型语料库中使用 Tf-Idf 方法的本质是,所使用的语料库规模越大,术语的独特权重就越多。这是因为语料库中文档大小或文档长度的增加导致重复的概率较低。语料库中两个术语的权重值。也就是说,Tf-Idf 方案中的权重可以呈现权重的指纹。在小规模语料库中,Tf-Idf 可以\xe2\x80\x99t 发挥这种作用,因为存在巨大的潜力找到两个具有相同权重的术语,因为它们共享相同的源文档,并且在每个文档中的频率相同。通过在抄袭检测领域使用 Tf-Idf 加权方案,根据语料库的大小,此功能可以是对手和支持者。
\n这是我从 tf-idf 技术中推断出来的..这是真的吗?
\n有没有链接或者文档可以证明我的结论\xd8\x9f
\n经过四年的等待,我可以说答案是肯定的:)
这其实可以简单地证明如下图所示。我们有 4 个文档,下面是每个术语的 TF 和 TFIDF 表。
当我们有一个小语料库(很少的文档)时,我们可以看到某些术语具有相同分布的概率很高(空气、质量),因此它们的 tfidf 值是相同的。参见上表。
但是,当我们的语料库包含大量文档时,我们不太可能找到两个在所有语料库中具有相同分布的术语。
注:我使用这个网站来计算Tf-Idf: https: //remykarem.github.io/tfidf-demo/
| 归档时间: |
|
| 查看次数: |
1319 次 |
| 最近记录: |