如何在Python/Django中对一长串单词有效地过滤字符串?

Con*_*ion 9 python string django nlp

Stackoverflow通过获取当前问题的标题并根据Google删除10,000个最常见的英语单词来实现其"相关问题"功能.然后将剩余的单词作为全文搜索提交以查找相关问题.

我想在我的Django网站上做类似的事情.对Python中的一长串单词过滤字符串(在本例中为问题标题)的最佳方法是什么?任何能让我高效做到这一点的图书馆?

小智 11

你可以非常简单地使用Python中的set和string功能,看看它是如何执行的(过早的优化是万恶之源!):

common_words = frozenset(("if", "but", "and", "the", "when", "use", "to", "for"))
title = "When to use Python for web applications"
title_words = set(title.lower().split())
keywords = title_words.difference(common_words)
print(keywords)
Run Code Online (Sandbox Code Playgroud)