使用语言检测进行多语言拼写检查

Question

我正在进行混合语言网页的拼写检查,但未能找到有关该主题的任何现有研究.

目的是在混合语言网页中自动检测句子级别的语言,并自动对其语言进行拼写检查.假设我们可以忽略将多种语言混合在一起的句子(例如"他有一定的知识"),并假设网页不能包含超过2或3种语言.

琐碎的例子(威尔士语+英语):http://wales.gov.uk/

我目前正在混合使用:

我有工作代码,但我担心它可能天真或不必要地重新发明一个轮子.有没有其他人这样做过？

Answer 1

您可以使用 API（Google 和 Yandex）进行拼写检查和语言检测 - 但我认为此选项的可扩展性不是很好。

其他选择是使用免费的 lucene 工具进行拼写检查http://wiki.apache.org/lucene-java/SpellChecker，但您必须先索引一些语料库 - 维基百科是不错的选择。LD 可以通过http://textcat.sourceforge.net/存档