我估计通常我的标题的答案是去阅读文档,但我浏览了NLTK书,但它没有给出答案.我是python的新手.
我有一堆.txt文件,我希望能够使用NLTK为语料库提供的语料库功能nltk_data.
我已经尝试PlaintextCorpusReader但是我无法进一步:
>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()
Run Code Online (Sandbox Code Playgroud)
如何newcorpus使用punkt 对句子进行分段?我尝试使用punkt函数,但punkt函数无法读取PlaintextCorpusReader类?
你能否告诉我如何将分段数据写入文本文件?
编辑: 这个问题有一次赏金,它现在有第二个赏金.请参阅赏金框中的文字.