我想运行nltk punkt来分割句子.没有训练模型所以我单独训练模型,但我不确定我使用的训练数据格式是否正确.
我的训练数据是每行一个句子.我无法找到任何关于此的文档,只有这个帖子(https://groups.google.com/forum/#!topic/nltk-users/bxIEnmgeCSM)提供了有关培训数据格式的一些信息.
nltk punkt句子标记化器的正确训练数据格式是什么?
python nlp nltk
我正在经历这个问题.
我只是想知道NLTK在单词/句子标记化中是否比正则表达更快.
python regex nlp tokenize nltk
nlp ×2
nltk ×2
python ×2
regex ×1
tokenize ×1