相关疑难解决方法(0)

有没有好的开源或免费提供的中文分词算法？

正如问题中的措辞,我正在寻找一个免费的和/或开源的中文文本分割算法,我确实理解这是一个非常难以解决的任务,因为有很多歧义.我知道有谷歌的API,但它确实是一个黑盒子,即没有太多关于它正在做什么的信息正在通过.

algorithm open-source cjk text-segmentation

2013 01-15

28
推荐指数

2
解决办法

9456
查看次数

我将收到用中文编写的文档，我必须对其进行标记并将其保存在数据库表中。我正在尝试 Lucene 的 CJKBigramFilter，但它所做的只是将 2 个字符联合在一起，其含义与文档中的含义不同。假设这是文件“Hello My name is Pradeep”中的一行，在中文传统中是“\xe4\xbd\xa0\xe5\xa5\xbd\xe6\x88\x91\xe7\x9a\x84\xe5\x90\ x8d\xe5\xad\x97\xe6\x98\xaf\xe6\x99\xae\xe6\x8b\x89\xe8\xbf\xaa\xe6\x99\xae”。当我对其进行标记时，它会转换为下面的 2 个字母单词。\n\xe4\xbd\xa0\xe5\xa5\xbd - Hello\n\xe5\x90\x8d\xe5\xad\x97 - 名称\n\ xe5\xa5\xbd\xe6\x88\x91 - 嗯，我\n\xe5\xad\x97\xe6\x98\xaf - 字是\n\xe6\x88\x91\xe7\x9a\x84 - 我的\n\ xe6\x8b\x89\xe8\xbf\xaa - Radi\n\xe6\x98\xaf\xe6\x99\xae - 是 S & P\n\xe6\x99\xae\xe6\x8b\x89 - 普拉\ n\xe7\x9a\x84\xe5\x90\x8d - 以\n\xe8\xbf\xaa\xe6\x99\xae 的名义 - Dipp。\n我想要的只是将其转换为相同的英文翻译。\nI我正在为此使用 Lucene...如果您有任何其他有利的 opne 源，请指示我。\n提前致谢

java tokenize

Pra*_*eep

lucky-day

6
推荐指数

1
解决办法

5429
查看次数