Sac*_*mar 5 html javascript css jquery indic
是否有任何最佳方法来实现印度语(如印地语泰米尔语)的字符计数例如,如果我们采用英语中的“母亲”一词,它是一个 6 个字母的单词。但是,如果您用印地语键入相同的单词(\xe0\xa4\xae\xe0\xa4\xbe\xe0\xa4\xa4\xe0\xa4\xbe),它是一个两个字母的单词(\xe0\xa4\xae\ xe0\xa4\xbe + \xe0\xa4\xa4\xe0\xa4\xbe) 但字符长度变成了4。有没有办法计算真实字符的数量?
\n\n\xe0\xa4\xae\xe0\xa4\xbe\xe0\xa4\xa4\xe0\xa4\xbe -> actual -> 4, Expected-> 2\n\xe0\xa4\x9c\xe0\xa4\x97\xe0\xa4\xa6\xe0\xa5\x80\xe0\xa4\xb6 -> actual ->5 , Expected -> 4\n\xe0\xa4\x95\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa4\xae\xe0\xa4\xb6 -> actual -> 5, expected -> 3\nRun Code Online (Sandbox Code Playgroud)\n\n对此的任何帮助将不胜感激......
\n小智 0
我知道五年后回答没有任何帮助。但可能会对其他正在寻找同样东西的人有所帮助。
\n我也有同样的要求。根据我的搜索,没有任何即插即用的软件包可以做到这一点。看到印度语言的问题是, \xe0\xa4\xae\xe0\xa4\xbe\xe0\xa4\xa4\xe0\xa4\xbe 单词被视为 "ma" + "aa" (matra) + "tha " + "aa" (matra) 因此它变成 4。为了避免这种情况,您必须对 Unicode 中仅对应于完整字母的字符范围进行硬编码,并忽略字符。
\n看看这个:\n[https://en.wikipedia.org/wiki/Devanagari_(Unicode_block)][1]
\n在表中,\n(U+090x4 to U+093x9) + (U+095x8 to U+095xF) 将成为普通字符,其他都是 matras,你应该忽略它们,所以在你使用的编程语言中,你应该.filter() 或类似的操作来查找字符数。
\n| 归档时间: |
|
| 查看次数: |
521 次 |
| 最近记录: |