正如问题中的措辞,我正在寻找一个免费的和/或开源的中文文本分割算法,我确实理解这是一个非常难以解决的任务,因为有很多歧义.我知道有谷歌的API,但它确实是一个黑盒子,即没有太多关于它正在做什么的信息正在通过.
我将收到用中文编写的文档,我必须对其进行标记并将其保存在数据库表中。我正在尝试 Lucene 的 CJKBigramFilter,但它所做的只是将 2 个字符联合在一起,其含义与文档中的含义不同。假设这是文件“Hello My name is Pradeep”中的一行,在中文传统中是“\xe4\xbd\xa0\xe5\xa5\xbd\xe6\x88\x91\xe7\x9a\x84\xe5\x90\ x8d\xe5\xad\x97\xe6\x98\xaf\xe6\x99\xae\xe6\x8b\x89\xe8\xbf\xaa\xe6\x99\xae”。当我对其进行标记时,它会转换为下面的 2 个字母单词。\n\xe4\xbd\xa0\xe5\xa5\xbd - Hello\n\xe5\x90\x8d\xe5\xad\x97 - 名称\n\ xe5\xa5\xbd\xe6\x88\x91 - 嗯,我\n\xe5\xad\x97\xe6\x98\xaf - 字是\n\xe6\x88\x91\xe7\x9a\x84 - 我的\n\ xe6\x8b\x89\xe8\xbf\xaa - Radi\n\xe6\x98\xaf\xe6\x99\xae - 是 S & P\n\xe6\x99\xae\xe6\x8b\x89 - 普拉\ n\xe7\x9a\x84\xe5\x90\x8d - 以\n\xe8\xbf\xaa\xe6\x99\xae 的名义 - Dipp。\n我想要的只是将其转换为相同的英文翻译。\nI我正在为此使用 Lucene...如果您有任何其他有利的 opne 源,请指示我。\n提前致谢
\n