当我对分割特定单词、日期和数字的文本进行标记化时,我在文本匹配方面遇到了问题。在 NLTK 中标记单词时,如何防止诸如“在我的家人中跑步”、“步行 30 分钟”或“每天 4 次”之类的短语分裂?
它们不应导致:
['runs','in','my','family','4x','a','day']
Run Code Online (Sandbox Code Playgroud)
例如:
是的,我每天骑自行车 20-30 分钟,效果很好!!
给出:
['yes','20-30','minutes','a','day','on','my','bike',',','it','works','great']
Run Code Online (Sandbox Code Playgroud)
我希望将“20-30 分钟”视为一个词。我怎样才能得到这种行为>?