用于术语提取的tf-idf背后的直觉

Question

用于术语提取的tf-idf背后的直觉

jCo*_*der 6 nlp machine-learning tf-idf

我正在尝试使用tf-idf构建单词词典.但是,直觉上它没有意义.

如果tf-idf的逆文档频率(idf)部分计算术语相对于整个语料库的相关性,那么这意味着一些重要单词可能具有较低的相关性.

如果我们查看法律文件的语料库,每个文档中可能会出现"许可"或"合法"等术语.由于idf,这些条款的得分将非常低.但是,直观地说,这些术语应该有更高的分数,因为这些术语显然是合法的术语.

是TF-IDF建设方面的字典个不错的办法？

Answer 1

CAF*_*ABE 5

是的，这些条款是法律条款。但是，tf-idf不会尝试评估它们是否与特定域相关。它们可以帮助您粉碎该域中的文档。如果在每个文档中都出现类似“法律”的术语，那么它们将无助分类器将这些文档区分开。但是，如果您将法律文件与随机文件集混合在一起。您会发现它们突然变得极为相关。正是因为它们使您可以区分法律文件和其他文件。

实际上，它们通常用于删除“同类”停用词。例如，“ the”出现在每个文档中，没有任何含义。

tf-idf是否适合构建字典，在很大程度上取决于您以后要对该字典执行的操作。

归档时间：	10 年前
查看次数：	386 次
最近记录：	7 年，9 月前