我正在尝试从文本文档创建对称的单词矩阵.
例如:text ="Barbara很好.Barbara是Benny的朋友.Benny很糟糕."
我使用nltk对文本文档进行了标记.现在我想计算同一句话中出现的其他单词的次数.从上面的文字,我想在下面创建矩阵:
Barbara good friends Benny bad
Barbara 2 1 1 1 0
good 1 1 0 0 0
friends 1 0 1 1 0
Benny 1 0 1 2 1
bad 0 0 1 1 1
Run Code Online (Sandbox Code Playgroud)
请注意,对角线是单词的频率.因为芭芭拉和芭芭拉一起经常出现在巴巴拉的句子中.我希望不要超过,但如果代码变得太复杂,这不是一个大问题.