小编mm7*_*mm7的帖子

当我对分割特定单词、日期和数字的文本进行标记化时，我在文本匹配方面遇到了问题。在 NLTK 中标记单词时，如何防止诸如“在我的家人中跑步”、“步行 30 分钟”或“每天 4 次”之类的短语分裂？

它们不应导致：

['runs','in','my','family','4x','a','day']

例如：

是的，我每天骑自行车 20-30 分钟，效果很好！！

给出：

['yes','20-30','minutes','a','day','on','my','bike',',','it','works','great']

我希望将“20-30 分钟”视为一个词。我怎样才能得到这种行为>？

5
推荐指数

2
解决办法

2394
查看次数

小编mm7_mm7的帖子