相关疑难解决方法(0)

确定文本是否是英文?

我正在使用NltkScikit Learn进行一些文本处理.但是,在我的文件清单中,我有一些非英文文件.例如,以下可能是真的:

[ "this is some text written in English", 
  "this is some more text written in English", 
  "Ce n'est pas en anglais" ] 
Run Code Online (Sandbox Code Playgroud)

出于我的分析目的,我希望将所有非英语句子作为预处理的一部分删除.但是,有一个很好的方法吗?我一直在谷歌搜索,但找不到任何具体的东西,让我能够识别字符串是否为英文.这是不是作为功能提供的东西NltkScikit learn编辑我见过两个这样的问题这个这个,但都是个别单词...不是一个"文件".我是否必须遍历句子中的每个单词以检查整个句子是否是英文的?

我正在使用Python,所以Python中的库会更受欢迎,但我可以根据需要切换语言,只是认为Python是最好的.

python nlp nltk scikit-learn

10
推荐指数
3
解决办法
2万
查看次数

语言检测

有没有人有任何经验如何使用python确定文本的语言?在python中是否有可用的模块?

我已经尝试过谷歌应用程序(http://ajax.googleapis.com/ajax/services/language/detect),它运行正常,但我不能长期使用它来加载大量文本文件.

python

6
推荐指数
1
解决办法
632
查看次数

python网站语言检测

我正在写一个Bot,可以检查成千上万的网站,不管是英文与否.

我正在使用Scrapy(python 2.7框架)来抓取每个网站的第一页,

可以有人建议我检查网站语言的最佳方式,

任何帮助,将不胜感激.

python web-crawler language-detection scrapy

5
推荐指数
1
解决办法
3003
查看次数