检测文本是否为英文(批量)

use*_*511 8 python nlp language-detection

我正在寻找一种简单的方法来检测短文摘要,几句话是英语与否.在我看来,这个问题比试图检测任意语言容易得多.有没有可以做到这一点的软件?我正在用python编写,并且更喜欢python库,但其他东西也可以.我试过谷歌,但后来意识到TOS不允许自动查询.

HyL*_*ian 11

我读了一种通过使用Trigrams来检测Enlgish语言的方法

http://en.wikipedia.org/wiki/Trigram

您可以翻阅文本,并尝试检测单词中最常用的三元组.如果最常用的那些与英语单词中使用最多的单词相匹配,则该文本可以用英语书写

试着看看这个ruby项目:

https://github.com/feedbackmine/language_detector