正则表达式与西里尔字母

Question

我在textarea字段中有一个用于字数统计的jQuery函数.此外,它排除了所有单词,这些单词在[[[tripple bracket]]]中关闭.它适用于拉丁字符,但它有西里尔语句子的问题.我想错误部分与正则表达式有关:

$(field).val().replace(/\[\[\[[^\]]*\]\]\]/g, '').match(/\b/g);

我需要统计所有的单词,包括cirillic表达,而不仅仅是拉丁语中的单词.怎么做？

Answer 1

JavaScript(至少是最广泛使用的版本)不完全支持Unicode.也就是说,\w仅匹配拉丁字母,十进制数字和下划线([a-zA-Z0-9_]),并\b匹配单词字符和非单词字符之间的边界.

要使用Latin或Cyrillic查找输入字符串中的所有单词,您必须执行以下操作:

.match(/[\w?-?]+/ig); // where ? is the Cyrillic ?.

或者如果您愿意:

.match(/[\w\u0430-\u044f]+/ig);

当然,这可能意味着您需要稍微调整一下代码,因为这里它将匹配所有单词而不是单词边界.需要注意的是[?-?]匹配的"基本西里尔字母"任何字母描述这里.要匹配此范围之外的字母,您可以根据需要修改字符集以包含这些字母,例如也匹配俄语Ё/ё,使用[?-??].

另请注意,您的三支架模式可以简化为:

.replace(/\[{3}[^]]*]{3}/g, '')

或者,您可能希望查看XRegExp项目 - 这是一个开源项目,用于向基本JavaScript正则表达式引擎及其Unicode插件添加新功能.

我还建议/ [\wа-яА-Я] + / ig为“а-я”，区分大小写。 (3认同)
以防它对其他人有帮助，`а-я` 正在被编码（大概是我的编辑器），因此它在 REGEX 中没有匹配项。改用 unicode 字符范围解决了这个问题。 (2认同)

Answer 2

注意使用西里尔字母范围，其中可能包含不必要的字符。有防弹正则表达式只包含西里尔字母：

/^[??????????????????????????????????????????????????????????????????]+$/

当然，这不是完整的西里尔字母。您忘记了乌克兰语和白俄罗斯语字符，更不用说巴尔干斯拉夫语字符或带有 ѣ、ѧ、ѩ、ѵ、ꙋ / ѹ 等的传统字母表。还记得用于非斯拉夫语（突厥语、蒙古语、乌拉尔语、通古斯语）的几十种西里尔字母, chukotko-kamchatkan 等）。不管是什么，这里是现代斯拉夫语言中使用的所有现代西里尔字母真正的完整列表：АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯЁЂЃЄЅІЇЈЉЊЋЌЎЏҐабвгдежзийклмнопрстуфхцчшщъыьэюяёђѓєѕіїјљњћќўџґ (10认同)
不，我按照我编写的方式使用它，并且它可以在 Ruby 和 Notepad++ 中运行。在多个规范中也提到了这一点：https://regular-expressions.mobi/unicode.html?wlr=1 (2认同)