我有一些由另一个系统生成的文本.它将一些单词组合在一起,我认为是某种文字包装副产品.所以像"狗"这样简单的东西就会组合成"狗".
我检查了ascii和unicode字符串,看看那里没有一些看不见的字符,但没有.一个令人困惑的问题是,这是医学文本,要检查的语料库不是可用的.因此,真正的例子是"...排除SARS与肺炎的试验"最终成为"......肺炎".
有人建议找到并分离这些吗?
这就是我所做的。我结合了几个想法,并使用通用的引导方法提出了一个非常好的解决方案。我使用 Python 来完成这一切。