我有N个跟踪的不同关键字(为简单起见,让N = 3).所以在GET状态/过滤器中,我将在"track"参数中给出3个关键字.
现在我将收到的推文可以来自我提到的3个关键词中的任何一个.问题是我想解决哪个推文对应哪个关键字.即推文和关键字之间的映射(在"track"参数中提到).
显然,没有对收到的推文进行任何处理就没有办法做到这一点.
所以我想知道进行这种处理的最佳方法是什么?在推文文本中搜索关键字?不区分大小写的情况怎么样?当同一个关键词中存在多个单词时,例如:"Katrina Kaif"?
我目前正在尝试制定一些正则表达式......
我认为最好的方法是使用与最初使用的状态/过滤器API相同的逻辑(正则表达式等).如何知道Twitter API状态/过滤器本身使用什么逻辑来匹配推文到关键字?
建议吗?救命?
PS:我使用的是Python,Tweepy,Regex,MongoDb/Apache S4(用于分布式计算)