如何计算印度文泰卢固语字符

Ani*_*ina 5 javascript character count

我有一些 JavaScript 可以计算文本框中的字符总数。英语没问题,但当我输入泰卢固语脚本时,它显示错误的计数。例如,

\n\n
Anil = 4\n\xe0\xb0\x85\xe0\xb0\xa8\xe0\xb0\xbf\xe0\xb0\xb2\xe0\xb1\x8d = 4\n
Run Code Online (Sandbox Code Playgroud)\n\n

\xe0\xb0\x85\xe0\xb0\xa8\xe0\xb0\xbf\xe0\xb0\xb2\xe0\xb1\x8d只是泰卢固语脚本的三个字母。如何准确计算印度文字符?

\n

geo*_*org 5

我对泰卢固语一无所知,因此以下内容可能完全错误。让我知道。

\n\n

"\xe0\xb0\x85\xe0\xb0\xa8\xe0\xb0\xbf\xe0\xb0\xb2\xe0\xb1\x8d".split("")["\xe0\xb0\x85", "\xe0\xb0\xa8", "\xe0\xb0\xbf", "\xe0\xb0\xb2", "\xe0\xb1\x8d"]为我打印。字符 #2 和 #4 似乎是组合标记而不是字母。我们只想计算实际字母,因此让我们删除http://www.unicode.org/Public/UNIDATA/UnicodeData.txt中不称为泰卢固语字母的所有内容,然后计算其余字母:

\n\n
str = "\xe0\xb0\x85\xe0\xb0\xa8\xe0\xb0\xbf\xe0\xb0\xb2\xe0\xb1\x8d"\nlen = str.replace(/[^\\u0C05-\\u0C39\\u0C58-\\u0C61]/g, \'\').length\n
Run Code Online (Sandbox Code Playgroud)\n\n

按预期返回“3”。

\n