小编jCo*_*der的帖子

用于术语提取的tf-idf背后的直觉

我正在尝试使用tf-idf构建单词词典.但是,直觉上它没有意义.

如果tf-idf逆文档频率(idf)部分计算术语相对于整个语料库的相关性,那么这意味着一些重要单词可能具有较低的相关性.

如果我们查看法律文件的语料库,每个文档中可能会出现"许可"或"合法"等术语.由于idf,这些条款的得分将非常低.但是,直观地说,这些术语应该有更高的分数,因为这些术语显然是合法的术语.

TF-IDF建设方面的字典个不错的办法?

nlp machine-learning tf-idf

6
推荐指数
1
解决办法
386
查看次数

hashCode()返回负值的字符串

"random".hashCode()返回值-938285885.是否预期负值hashCode()

根据以下问题,有一种方法hashCode()可以计算字符串,但是使用它,随着字符串长度的增加,值不会继续增加,最终会大于Integer.MAX_VALUE

java hashcode

1
推荐指数
1
解决办法
6483
查看次数

标签 统计

hashcode ×1

java ×1

machine-learning ×1

nlp ×1

tf-idf ×1