检测文本语言

Nik*_*hil 21 c# language-detection

有没有可以检测特定文本语言的C#库?即对于输入文本"This is a sentence",它应该将语言检测为"English".或者"Esto es una sentencia"它应该检测语言为"Spanish".

我理解从文本中检测语言不是一个确定性的问题.但Google TranslateBing Translator都有一个"自动检测"选项,可以最好地猜测输入语言.是否有公开的类似内容,最好是在C#中?

Iva*_*rov 30

是的,TextCat非常适合语言识别.它有很多不同语言的实现.

.Net中没有端口.所以我写了一篇:NTextCat(NuGet,在线演示).

它是纯.NET Framework DLL +命令行界面.默认情况下,它使用14种语言的配置文件.

任何反馈都非常感谢!欢迎新的想法和功能要求:)


Ara*_*ion 0

您需要一个基于隐马尔可夫链的机器学习算法,处理一堆不同语言的文本。

然后,当遇到未识别的文本时,“分数”更接近的语言就是获胜者。