我正在尝试使用以下正则表达式捕获希伯来语文本的一部分(原点是新闻网站上的评论):
[\u0590-\u05FF \\p{Graph} \\s]+
Run Code Online (Sandbox Code Playgroud)
它适用于大多数评论,但错过了一些评论.
我试图调试这个,似乎有一个与模式不匹配的希伯来字母.
当我提取这个字母并打印它的整数值时,它似乎是正确的但仍然正则表达式没有抓住它...
想法?
使用\p{InHebrew}而不是在语义上更正确\u0590-\u05FF
您还需要匹配标点符号、数字(至少是世界通用的数字)和不同类型的空格。我不知道什么是\p{Graph}希伯来语特定的标点符号,但似乎您错过了一些部分。