Oli*_*ton 7 language-agnostic multilingual nlp spell-checking
我正在进行混合语言网页的拼写检查,但未能找到有关该主题的任何现有研究.
目的是在混合语言网页中自动检测句子级别的语言,并自动对其语言进行拼写检查.假设我们可以忽略将多种语言混合在一起的句子(例如"他有一定的知识"),并假设网页不能包含超过2或3种语言.
琐碎的例子(威尔士语+英语):http://wales.gov.uk/
我目前正在混合使用:
我有工作代码,但我担心它可能天真或不必要地重新发明一个轮子.有没有其他人这样做过?
您可以使用 API(Google 和 Yandex)进行拼写检查和语言检测 - 但我认为此选项的可扩展性不是很好。
其他选择是使用免费的 lucene 工具进行拼写检查http://wiki.apache.org/lucene-java/SpellChecker,但您必须先索引一些语料库 - 维基百科是不错的选择。LD 可以通过http://textcat.sourceforge.net/存档
| 归档时间: |
|
| 查看次数: |
1233 次 |
| 最近记录: |