相关疑难解决方法(0)

nltk punkt的训练数据格式

我想运行nltk punkt来分割句子.没有训练模型所以我单独训练模型,但我不确定我使用的训练数据格式是否正确.

我的训练数据是每行一个句子.我无法找到任何关于此的文档,只有这个帖子(https://groups.google.com/forum/#!topic/nltk-users/bxIEnmgeCSM)提供了有关培训数据格式的一些信息.

nltk punkt句子标记化器的正确训练数据格式是什么?

python nlp nltk

16
推荐指数
1
解决办法
6767
查看次数

Python re.split()vs nltk word_tokenize和sent_tokenize

我正在经历这个问题.

我只是想知道NLTK在单词/句子标记化中是否比正则表达更快.

python regex nlp tokenize nltk

13
推荐指数
1
解决办法
8687
查看次数

标签 统计

nlp ×2

nltk ×2

python ×2

regex ×1

tokenize ×1