在给定URL的情况下自动确定网站页面的自然语言

Tra*_*vis 9 python url nlp web

我正在寻找一种方法来自动确定网站页面使用的自然语言,并给出其URL.

在Python中,函数如下:

def LanguageUsed (url):
    #stuff
Run Code Online (Sandbox Code Playgroud)

返回语言说明符(例如,英语为'en',日语为'jp'等)

结果摘要:我有一个合理的解决方案,使用PyPi for oice.langdet中的代码在Python中工作.它在区分英语和非英语方面做得不错,这是我目前所需要的.请注意,您必须使用Python urllib获取html.另外,oice.langdet是GPL许可证.

有关使用Python中的Trigrams的更一般的解决方案,请参阅其他人建议的,请参阅ActiveState的Python Cookbook配方.

Google自然语言检测API运行良好(如果不是我见过的最好的).但是,它是Javascript和他们的TOS禁止自动使用它.

Joã*_*lva 8

这通常通过使用字符n-gram模型来完成.您可以在这里找到最先进的Java语言标识符.如果您需要一些帮助将其转换为Python,请询问.希望能帮助到你.


Vin*_*uck 6

您最好的选择是使用Google的自然语言检测 API.它返回页面语言的iso代码,带有概率索引.

请参阅http://code.google.com/apis/ajaxlanguage/documentation/