python网站语言检测

akh*_*hab 5 python web-crawler language-detection scrapy

我正在写一个Bot,可以检查成千上万的网站,不管是英文与否.

我正在使用Scrapy(python 2.7框架)来抓取每个网站的第一页,

可以有人建议我检查网站语言的最佳方式,

任何帮助,将不胜感激.

Dan*_* Li 1

调查Natural Language Toolkit

NLTK: http: //nltk.org/

您想要研究的是使用corpus以下方式提取默认词汇集NLTK

nltk.corpus.words.words()

然后,使用 比较您的文本与上面的文本difflib

参考: http: //docs.python.org/library/difflib.html

使用这些工具,您可以创建一个量表来衡量您的文本与 NLTK 定义的英语单词之间所需的差异。