如何在PHP中拆分字符串中的泰米尔语字符

pri*_*cst 10 php unicode tamil string-split

如何在字符串中拆分泰米尔语字符?

当我使用时preg_match_all('/./u', $str, $results),
我得到的字符是"த","ம","ி","ழ"和"்".

如何获得组合字符"த","மி"和"ழ்"?

rua*_*akh 13

我认为你应该能够使用grapheme_extract函数迭代组合字符(技术上称为"字形集群").

或者,如果您更喜欢正则表达式方法,我认为您可以使用此方法:

preg_match_all('/\pL\pM*|./u', $str, $results)
Run Code Online (Sandbox Code Playgroud)

其中\pL表示Unicode"字母",\pM表示Unicode"标记".

(免责声明:我没有测试过这些方法.)

  • 请[接受此答案,如果它可以帮助您解决问题](http://meta.stackexchange.com/questions/5234/how-does-accepting-an-answer-work/5235#5235).这将清楚地表明这个问题得到了令人满意的回答,为未来的访问者提供了一个关于哪个答案有效(如果有的话)的指标,并给予答案一点额外的声誉作为继续回答问题的动机.谢谢! (7认同)