我正在使用 Python 作为业余项目制作抄袭检查器。应遵循以下步骤:
标记文档。
使用 NLTK 库删除所有停用词。
使用 GenSim 库并逐行查找最相关的单词。这可以通过创建文档的 LDA 或 LSA 来完成。
使用 Google Search API 来搜索这些词。
注意:您可能选择使用 Google API 并一次搜索整个文档。当您处理少量数据时,这将起作用。然而,在为网站和网络抓取数据构建抄袭检查器时,我们需要应用 NLTK 算法。
谷歌搜索 API 将产生与从 Python 的 GenSim 库函数产生 LDA 或 LSA 相同的词的热门文章。
希望它有所帮助。
| 归档时间: |
|
| 查看次数: |
9096 次 |
| 最近记录: |