如何开发抄袭探测器?

deo*_*ngh 1 projects

我打算将剽窃检测器作为我的计算机科学工程最后一年的项目,我想就此如何去做.

如果您能够建议CS中我需要关注的所有字段以及最适合实现的语言,我将不胜感激.

Sam*_*son 6

这种语言几乎无关紧要.存在另一个问题,讨论这个问题.基本上,该方法建议使用谷歌.提取部分目标文本,然后在Google上搜索它们.


Sum*_*kar 6

我正在使用 Python 作为业余项目制作抄袭检查器。应遵循以下步骤:

  1. 标记文档。

  2. 使用 NLTK 库删除所有停用词。

  3. 使用 GenSim 库并逐行查找最相关的单词。这可以通过创建文档的 LDA 或 LSA 来完成。

  4. 使用 Google Search API 来搜索这些词。

注意:您可能选择使用 Google API 并一次搜索整个文档。当您处理少量数据时,这将起作用。然而,在为网站和网络抓取数据构建抄袭检查器时,我们需要应用 NLTK 算法。

谷歌搜索 API 将产生与从 Python 的 GenSim 库函数产生 LDA 或 LSA 相同的词的热门文章。

希望它有所帮助。