我正在使用Nltk和Scikit Learn进行一些文本处理.但是,在我的文件清单中,我有一些非英文文件.例如,以下可能是真的:
[ "this is some text written in English",
"this is some more text written in English",
"Ce n'est pas en anglais" ]
Run Code Online (Sandbox Code Playgroud)
出于我的分析目的,我希望将所有非英语句子作为预处理的一部分删除.但是,有一个很好的方法吗?我一直在谷歌搜索,但找不到任何具体的东西,让我能够识别字符串是否为英文.这是不是作为功能提供的东西Nltk或Scikit learn?编辑我见过两个这样的问题这个和这个,但都是个别单词...不是一个"文件".我是否必须遍历句子中的每个单词以检查整个句子是否是英文的?
我正在使用Python,所以Python中的库会更受欢迎,但我可以根据需要切换语言,只是认为Python是最好的.
有没有人有任何经验如何使用python确定文本的语言?在python中是否有可用的模块?
我已经尝试过谷歌应用程序(http://ajax.googleapis.com/ajax/services/language/detect),它运行正常,但我不能长期使用它来加载大量文本文件.
我正在写一个Bot,可以检查成千上万的网站,不管是英文与否.
我正在使用Scrapy(python 2.7框架)来抓取每个网站的第一页,
可以有人建议我检查网站语言的最佳方式,
任何帮助,将不胜感激.