我正在处理一个接受不同语言用户输入的应用程序(目前修复了3种语言).要求是用户可以输入文本,而不必费心通过UI中提供的复选框选择语言.
是否有现有的Java库来检测文本的语言?
我想要这样的东西:
text = "To be or not to be thats the question."
// returns ISO 639 Alpha-2 code
language = detect(text);
print(language);
Run Code Online (Sandbox Code Playgroud)
结果:
EN
Run Code Online (Sandbox Code Playgroud)
我不想知道如何自己创建一个语言检测器(我已经看到很多博客试图这样做).该库应提供简单的APi,并且完全脱机工作.开源或商业封闭并不重要.
我也在SO上发现了这个问题(还有一些):
是否有任何好的,开源的引擎用于检测文本所使用的语言,可能具有概率指标?一个我可以在本地运行,不查询谷歌或必应?我想在大约1500万页的OCR文本中检测每页的语言.
并非所有文档都包含使用拉丁字母的语言.
我正在进一步提出这个问题/答案
但它缺少特殊字符检查,我们可以这样做吗?
我的目标是找出字符串是否有阿拉伯字符但可能很难...(如果不是请告知).
或者,我们可以检查它是否具有所有英文字符,否则显然它将是阿拉伯语,因为我只有这两种语言...