Rad*_*Hex 4 python django indexing data-mining keyword
我已经构建了一个内容聚合器,并希望添加一个代表当前趋势的标签云.
不幸的是,这非常复杂,因为我必须寻找代表每篇文章背景的关键字.
例如,像I,was,the,amazing,nice等单词与上下文无关.
非常感谢帮助!:)
使用NLTK,特别是其Stopwords语料库:
除了常规内容词之外,还有另一类称为停用词的词,它们执行重要的语法功能,但不太可能自己有趣.这些包括介词,补语和决定者.NLTK捆绑了Stopwords语料库,这是一个包含11种不同语言(包括英语)的2400个单词的列表.
| 归档时间: |
|
| 查看次数: |
1295 次 |
| 最近记录: |