小编lea*_*r57的帖子

在Python中使用NLTK查找押韵

我有一首诗,我希望Python代码只打印那些彼此押韵的单词.

到目前为止,我能够:

  1. 打破诗句 wordpunct_tokenize()
  2. 通过删除标点符号来清理单词
  3. 将诗中每个句子的最后一个单词存储在一个列表中
  4. 使用cmudict.entries()元素作为最后的单词及其发音生成另一个列表.

我坚持下一步.我该如何尝试匹配这些发音?总而言之,我的主要任务是找出两个给定的单词是否押韵.若韵,则返回True,否则False.

python nltk

17
推荐指数
2
解决办法
8374
查看次数

NLTK布朗语料库标签

当我打印时,nltk.corpus.brown.tagged_words()它打印大约1161192个元组及其相关标签.

我想区分具有不同不同标签的不同字母.一个单词可以有多个标签.

按可用连字符的数量附加列表项我尝试使用此线程的每个代码,但我没有得到任何超过3个标签的单词.据我所知,甚至还有8或9个标签.

我的做法哪里错了?怎么解决这个?我有两个不同的问题:

  1. 如何在不同的不同标签下弄清楚语料库的不同单词的数量?语料库中的不同单词的数量让我们说8个不同的标签.

  2. 同样,我想知道具有最多不同标签的单词.

而且,我只对单词感兴趣.我正在删除标点符号.

python nlp corpus nltk

3
推荐指数
1
解决办法
5039
查看次数

标签 统计

nltk ×2

python ×2

corpus ×1

nlp ×1