过滤掉无意义的短语

Max*_*Max 5 nlp

我有一个算法(无法更改),该算法可以输出短语列表。这些短语旨在成为“主题”。但是,其中一些仅靠自己是没有意义的。拿这个清单:

is the fear
freesat
are more likely to
first sight
an hour of
sue apple
depression and
itunes
Run Code Online (Sandbox Code Playgroud)


我该如何过滤掉那些没有意义的短语,留下如下列表?

freesat
first sight
sue apple
itunes
Run Code Online (Sandbox Code Playgroud)


这将适用于多种语言的短语集,但英语为优先。

Fre*_*Foo 3

它必须在语法上是可以接受的,因为它不能依赖于它所提取的原始句子中的其他单词;例如,它不能以“and”结尾。

尽管这仍然是一个未指定的问题,但听起来您需要某种语法检查器。我建议您尝试对每个短语应用词性标注器,编译可接受的 POS 标记模式列表(例如,任何以介词结尾的内容都是不可接受的),并使用它来过滤您的输入。