使用nltk的2个句子/字符串/文本之间的句法相似性/距离

Gan*_*ini 6 python nlp machine-learning nltk scikit-learn

我有2个文本如下

Text1:John喜欢苹果

Text2:迈克讨厌橙色

如果你检查上面的2个文本,它们在语法上都是相似的,但在语义上有不同的含义.

我想找到

1)2个文本之间的句法距离

2)2个文本之间的语义距离

有没有办法使用nltk这样做,因为我是NLP的新手?

小智 4

是的,但不限于 nltk。用于句法距离的一种方法是词性标记(词性标记),它将句子的每个单词映射到特定标记: https: //en.wikipedia.org/wiki/Part-of-speech_tagging

例如,它将您的句子映射到以下内容:
Text1:名词动词名词
Text2:名词动词名词

然后你就可以测量这两个句子的距离。


对于语义,你需要语义词网并找到句子中每个单词的同义词,然后尝试找到每个句子中单词的同义词的交集