如何检测文字语言?

Yet*_*eti 14 php language-detection

我有一个表单,允许用户输入文本片段.那么怎样才能找出输入文本的语言?

现在特别是这些语言:

阿拉伯语:هذههيبعضالنصوصالعربية

中文:这是一些阿拉伯文字

日语:これは,いくつかのアラビア语のテキストです

[编辑]检测对文本有效,也可以通过API检索(不涉及浏览器)

egr*_*nin 9

您可以确定字符是来自Unicode映射的阿拉伯语,中文还是日语部分.

如果你查看维基百科上的列表,你会发现每种语言都有很多部分的地图.但是你没有进行翻译,所以你不必担心每一个字形.

例如,你的中文文本开始(十六进制)0x8FD9 0x662F 0x4E00 - 这些都在"CJK统一表意文字"部分,这是中文.以下是一些可以帮助您入门的范围:

阿拉伯语(0600-06FF)

日本

  • 平假名(3040-309F)
  • 片假名(30A0-30FF)
  • Kanbun(3190-319F)

中文

  • CJK统一表意文字(4E00-9FFF)

(我使用中文到Unicode转换器获得了中文的十六进制.)

  • 你能说怎么样? (2认同)
  • 1.“CJK统一”C为中文,J为日文。这意味着这些字符可能是中文或日文。2. CJK 字符涵盖的 unicode 点比此处描述的更多。 (2认同)