相关疑难解决方法(0)

确定文本是否是英文？

我正在使用Nltk和Scikit Learn进行一些文本处理.但是,在我的文件清单中,我有一些非英文文件.例如,以下可能是真的:

[ "this is some text written in English", 
  "this is some more text written in English", 
  "Ce n'est pas en anglais" ]

Run Code Online (Sandbox Code Playgroud)

出于我的分析目的,我希望将所有非英语句子作为预处理的一部分删除.但是,有一个很好的方法吗？我一直在谷歌搜索,但找不到任何具体的东西,让我能够识别字符串是否为英文.这是不是作为功能提供的东西Nltk或Scikit learn？编辑我见过两个这样的问题这个和这个,但都是个别单词...不是一个"文件".我是否必须遍历句子中的每个单词以检查整个句子是否是英文的？

我正在使用Python,所以Python中的库会更受欢迎,但我可以根据需要切换语言,只是认为Python是最好的.

python nlp nltk scikit-learn

oce*_*800

2017 11-29

10
推荐指数

3
解决办法

2万
查看次数