语料库大小较大或较小的 TF-IDF

Question

语料库大小较大或较小的 TF-IDF

“在大型语料库中使用 Tf-Idf 方法的本质是，所使用的语料库规模越大，术语的独特权重就越多。这是因为语料库中文档大小或文档长度的增加导致重复的概率较低。语料库中两个术语的权重值。也就是说，Tf-Idf 方案中的权重可以呈现权重的指纹。在小规模语料库中，Tf-Idf 可以\xe2\x80\x99t 发挥这种作用，因为存在巨大的潜力找到两个具有相同权重的术语，因为它们共享相同的源文档，并且在每个文档中的频率相同。通过在抄袭检测领域使用 Tf-Idf 加权方案，根据语料库的大小，此功能可以是对手和支持者。

\n

这是我从 tf-idf 技术中推断出来的..这是真的吗？

\n

有没有链接或者文档可以证明我的结论\xd8\x9f

\n

Answer 1

Gha*_*nem 0

经过四年的等待，我可以说答案是肯定的:)

这其实可以简单地证明如下图所示。我们有 4 个文档，下面是每个术语的 TF 和 TFIDF 表。

当我们有一个小语料库（很少的文档）时，我们可以看到某些术语具有相同分布的概率很高（空气、质量），因此它们的 tfidf 值是相同的。参见上表。

但是，当我们的语料库包含大量文档时，我们不太可能找到两个在所有语料库中具有相同分布的术语。

注：我使用这个网站来计算Tf-Idf： https: //remykarem.github.io/tfidf-demo/

归档时间：	9 年前
查看次数：	1319 次
最近记录：	4 年，7 月前