我用nltk标记文本,只是将句子输入wordpunct_tokenizer.这会分裂收缩(例如'不要'到'不'+"'"+'t'),但我希望将它们保持为一个单词.我正在改进我的方法以获得更加精确和精确的文本标记化,因此我需要深入研究nltk标记化模块,而不仅仅是简单的标记化.
我猜这很常见,我想要其他人的反馈,他们之前可能不得不处理这个问题.
编辑:
是的,这是一个普遍的,泼溅的问题,我知道
另外,作为nlp的新手,我是否需要担心收缩?
编辑:
SExprTokenizer或TreeBankWordTokenizer似乎正在做我现在正在寻找的东西.
Jac*_*cob 10
您使用哪种标记器实际取决于您接下来要做什么.正如检查员G4dget所说,一些词性标注器处理分裂收缩,在这种情况下,拆分是一件好事.但也许这不是你想要的.要确定哪个标记化程序最佳,请考虑下一步所需的内容,然后将文本提交到http://text-processing.com/demo/tokenize/以查看每个NLTK标记生成器的行为方式.