小编use*_*779的帖子

如何检测文本文档中的重复项并返回重复项的相似性?

我正在编写一个爬虫来获取某些网站的内容,但内容可以重复,我想避免这种情况.所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个内容可能重复示例:

  • 文字1:"我正在写一个爬虫"
  • 文字2:"我正在写一些文字抓取工具来获取"

比较函数将文本2作为相同的文本1返回5/8%(其中5是文本的字数2相同的文本1(按字顺序比较),8是文本2的总字数).如果删除"some text",则将文本2作为相同的文本1(我需要检测情况).我该怎么做?

algorithm information-retrieval text-analysis

3
推荐指数
1
解决办法
1789
查看次数