有没有好的开源或免费提供的中文分词算法?

Seb*_*ian 28 algorithm open-source cjk text-segmentation

正如问题中的措辞,我正在寻找一个免费的和/或开源的中文文本分割算法,我确实理解这是一个非常难以解决的任务,因为有很多歧义.我知道有谷歌的API,但它确实是一个黑盒子,即没有太多关于它正在做什么的信息正在通过.

lsc*_*hin 30

关键字text-segmentation for Chinese应该是????中文.

良好而活跃的开源文本分割算法:

  1. 盘古分词(盘古段):C#,Snapshot
  2. ik-analyzer:Java
  3. ICTCLAS :C/C++, Java, C#,Demo
  4. NlpBamboo:C, PHP, PostgreSQL
  5. HTTPCWS:基于ICTCLAS,Demo
  6. mmseg4j:Java
  7. fudannlp :Java,Demo
  8. smallseg :Python, Java,Demo
  9. nseg: NodeJS
  10. 迷你分割器:python

其他

  1. Google代码:http://code.google.com/query/#q =中文分词
  2. OSChina(开源中国)

样品

  1. 谷歌浏览器(铬):src,cc_cedict.txt (73,145 Chinese words/pharases)

    • text fieldtextarea谷歌浏览器与中国的句子,按 Ctrl+ Ctrl+

    • Double click?????????????????????????

  • 好清单.怎么样[smallseg](http://code.google.com/p/smallseg/),它是否有资格成为好的和活跃的? (3认同)

小智 8

斯坦福段使用CRF算法.

这是在GPL下

链接页面是:http: //nlp.stanford.edu/software/segmenter.shtml