我首先要说的是我正在使用tweepy。我找到了一种过滤掉相同字符串的方法,但是我很难过滤掉相似的字符串。
我有两个句子字符串需要比较(Tweepy关键字=“ Donald Trump ”)
字串1: "Trump Administration Dismisses Surgeon General Vivek Murthy (http)PUGheO7BuT5LUEtHDcgm"
字串2: "Trump Administration Dismisses Surgeon General Vivek Murthy (http)avGqdhRVOO"
如您所见,它们相似但不相同。我需要找到一种方法来比较两者,并获取一个数字值,以确定是否应将第二条推文添加到第一条。我以为使用时有解决方案,SequenceMatcher()但总是打印出来0.0。我期望它会大于0.5。但是,Sequence Matcher似乎仅适用于一个单词字符串(如果我输入错误,请纠正我)。
现在您可能在想,“只是剪掉http部分”。这也不起作用,因为它无法解决@cars:xyz zyx和@trucks 这样的人鸣叫的名字:xyz zyx
有什么方法可以比较这两个文本吗?它应该很简单,但是由于某种原因,解决方案使我望而却步。我一周前才学过python。使用缩进来区分功能中的内容还是很奇怪。