nltk标记化和收缩

blu*_*ank 12 python nlp nltk

我用nltk标记文本,只是将句子输入wordpunct_tokenizer.这会分裂收缩(例如'不要'到'不'+"'"+'t'),但我希望将它们保持为一个单词.我正在改进我的方法以获得更加精确和精确的文本标记化,因此我需要深入研究nltk标记化模块,而不仅仅是简单的标记化.

我猜这很常见,我想要其他人的反馈,他们之前可能不得不处理这个问题.

编辑:

是的,这是一个普遍的,泼溅的问题,我知道

另外,作为nlp的新手,我是否需要担心收缩?

编辑:

SExprTokenizer或TreeBankWordTokenizer似乎正在做我现在正在寻找的东西.

Jac*_*cob 10

您使用哪种标记器实际取决于您接下来要做什么.正如检查员G4dget所说,一些词性标注器处理分裂收缩,在这种情况下,拆分是一件好事.但也许这不是你想要的.要确定哪个标记化程序最佳,请考虑下一步所需的内容,然后将文本提交到http://text-processing.com/demo/tokenize/以查看每个NLTK标记生成器的行为方式.