小编mm7*_*mm7的帖子

如何防止在 NLTK 中拆分特定的单词或短语和数字?

当我对分割特定单词、日期和数字的文本进行标记化时,我在文本匹配方面遇到了问题。在 NLTK 中标记单词时,如何防止诸如“在我的家人中跑步”、“步行 30 分钟”或“每天 4 次”之类的短语分裂?

它们不应导致:

['runs','in','my','family','4x','a','day']
Run Code Online (Sandbox Code Playgroud)

例如:

是的,我每天骑自行车 20-30 分钟,效果很好!!

给出:

['yes','20-30','minutes','a','day','on','my','bike',',','it','works','great']
Run Code Online (Sandbox Code Playgroud)

我希望将“20-30 分钟”视为一个词。我怎样才能得到这种行为>?

python tokenize nltk phrase

5
推荐指数
2
解决办法
2394
查看次数

标签 统计

nltk ×1

phrase ×1

python ×1

tokenize ×1