小编Cam*_*la8的帖子

Python Tf IDF算法

我想在一组文档中找到最相关的词。

我想对3个文档调用Tf Idf算法,并返回包含每个单词及其频率的csv文件。

在那之后,我将只使用数量较大的那些,然后使用它们。

我发现此实现可以实现我所需的https://github.com/mccurdyc/tf-idf/

我用subprocess图书馆叫那个罐子。但是该代码存在一个巨大的问题:它在分析单词时犯了很多错误。它混入了一些单词,并且与'and -(我认为)存在问题。我正在3本书(哈利·波特)的文本上使用它,例如,我正在获取诸如此类的单词,hermiones, hermionell, riddlehermione, thinghermione而不仅仅是hermione在csv文件中。

我做错什么了吗?您能给我Tf idf算法的有效实现吗?有没有这样做的python库?

python words tf-idf word-embedding

1
推荐指数
1
解决办法
5019
查看次数

标签 统计

python ×1

tf-idf ×1

word-embedding ×1

words ×1