Ruby文本分析

gem*_*emp 12 ruby text analysis

是否有任何Ruby宝石或文本分析?单词频率,模式检测等(最好有法语的理解)

Til*_*ilo 9

单词频率的泛化是语言模型,例如单克(=单字频率),双克(=单词对的频率),三克(=世界三重频率),......,一般来说:n -grams

你应该寻找一个现有的语言模型工具包 - 在这里重新发明轮子不是一个好主意.

有一些标准工具包可用,例如来自CMU Sphinx团队和HTK.

这些工具包通常用C语言编写(速度!!因为你必须处理大型语料库)并生成标准输出格式的ARPA n-gram文件(通常是文本格式)

检查以下线程,其中包含更多详细信息和链接:

构建openears兼容的语言模型

使用其中一个工具包生成语言模型后,您将需要一个Ruby Gem,它可以在Ruby中访问语言模型,或者您需要将ARPA格式转换为您自己的格式.

adi92的帖子列出了一些Ruby NLP资源.

您还可以通过Google获取"ARPA语言模型"以获取更多信息

最后,最重要的是在线查看Google的N-gram工具:http://ngrams.googlelabs.com/ 即将转到:http://books.google.com/ngrams

他们根据他们数字化的书籍建立了n-gram - 也提供法语和其他语言版本!