akh*_*hab 5 python web-crawler language-detection scrapy
我正在写一个Bot,可以检查成千上万的网站,不管是英文与否.
我正在使用Scrapy(python 2.7框架)来抓取每个网站的第一页,
可以有人建议我检查网站语言的最佳方式,
任何帮助,将不胜感激.
调查Natural Language Toolkit:
NLTK: http: //nltk.org/
您想要研究的是使用corpus以下方式提取默认词汇集NLTK:
nltk.corpus.words.words()
然后,使用 比较您的文本与上面的文本difflib。
参考: http: //docs.python.org/library/difflib.html
使用这些工具,您可以创建一个量表来衡量您的文本与 NLTK 定义的英语单词之间所需的差异。