如何标记没有空白分隔符的连续单词？

Question

我正在使用Python和nltk.我需要用英语处理一些没有任何空格的文本,但nltk中的word_tokenize函数无法处理这样的问题.那么如何在没有任何空格的情况下标记文本.Python中有任何工具吗？

Answer 1

我不知道有这样的工具，但问题的解决方案取决于语言。

对于土耳其语，您可以逐个字母扫描输入文本并将字母累积成一个单词。当您确定累积的单词形成字典中的有效单词时，将其保存为单独的标记，擦除用于累积新单词的缓冲区并继续该过程。

您可以在英语中尝试此操作，但我假设您可能会发现一个单词的结尾可能是某个字典单词的开头的情况，这可能会给您带来一些问题。