将卡纳达语分成音节星团

mps*_*hat 8 javascript arrays split kannada

我们想知道是否有任何方法可以使用JavaScript分割卡纳达语单词以获得音节群集.

例如,我想将单词?????拆分为音节群["?", "???", "?"].但是当我拆分它时split,获得的实际数组是["?", "?", "?", "?", "?"]

示例小提琴

bug*_*ena 3

我不能说这是一个完整的解决方案。但在一定程度上可以对单词的形成方式有一些基本的了解:

\n\n
var k = \'\xe0\xb2\x95\xe0\xb2\xa8\xe0\xb3\x8d\xe0\xb2\xa8\xe0\xb2\xa1\';\nvar parts = k.split(\'\');\narr = []; \nfor(var i=0; i< parts.length; i++) {\n  var s = k.charAt(i); \n\n  // while the next char is not a swara/vyanjana or previous char was a virama \n  while((i+1) < k.length && k.charCodeAt(i+1) < 0xC85 || k.charCodeAt(i+1) > 0xCB9 || k.charCodeAt(i) == 0xCCD) { \n    s += k.charAt(i+1); \n    i++; \n  } \n  arr.push(s);\n}\nconsole.log(arr);\n
Run Code Online (Sandbox Code Playgroud)\n\n

正如代码中的注释所说,我们会不断将字符附加到前一个字符,只要它们不是swaravyanjana前一个字符是virama。您可能需要使用不同的词语来确保涵盖不同的情况。这个特殊案例不包括数字。

\n\n

对于字符代码,您可以参考此链接:\n http://www.unicode.org/charts/PDF/U0C80.pdf

\n