使用语言检测进行多语言拼写检查

Oli*_*ton 7 language-agnostic multilingual nlp spell-checking

我正在进行混合语言网页的拼写检查,但未能找到有关该主题的任何现有研究.

目的是在混合语言网页中自动检测句子级别的语言,并自动对其语言进行拼写检查.假设我们可以忽略将多种语言混合在一起的句子(例如"他有一定的知识"),并假设网页不能包含超过2或3种语言.

琐碎的例子(威尔士语+英语):http://wales.gov.uk/

我目前正在混合使用:

  • 人物分布(例如0600-06FF =阿拉伯语等)
  • n-Grams用于识别具有相似字符的语言
  • 字典查找以识别语言环境,即en-US,en-GB

我有工作代码,但我担心它可能天真或不必要地重新发明一个轮子.有没有其他人这样做过?

yur*_*ura 2

您可以使用 API(Google 和 Yandex)进行拼写检查和语言检测 - 但我认为此选项的可扩展性不是很好。

其他选择是使用免费的 lucene 工具进行拼写检查http://wiki.apache.org/lucene-java/SpellChecker,但您必须先索引一些语料库 - 维基百科是不错的选择。LD 可以通过http://textcat.sourceforge.net/存档