为什么\ w只匹配javascript正则表达式中的英文单词?

Dor*_*oby 9 javascript regex hebrew

我正在尝试使用javascript代码在某些文本中查找网址.问题是,我正在使用的正则表达式使用\ w来匹配URL中的字母和数字,但它与非英语字符(在我的情况下是希伯来字母)不匹配.

那么我可以使用什么代替\ w来匹配所有语言中的所有字母?

Dav*_*lle 17

因为\w只匹配ASCII字符48-57('0' - '9'),67-90('A' - 'Z')和97-122('a' - 'z').希伯来字符和其他特殊外语字符(例如,umlaut-o或tilde-n)超出该范围.

不是匹配外语字符(在许多不同的ASCII范围内有很多这样的字符),你可能最好不要寻找描述你的单词的字符 - 空格,引号和其他标点符号.


Jan*_*rts 6

ECMA 262 v3标准定义了通常称为JavaScript的编程语言,规定\w应该等同于[a-zA-Z0-9_],并且\d应该等同于[0-9].\s另一方面,根据标准,匹配ASCII和Unicode空白.

JavaScript不支持\p匹配Unicode事物的语法,因此没有一种好方法可以做到这一点.您可以将所有希伯来字符与:

[\u0590-\u05FF]
Run Code Online (Sandbox Code Playgroud)

这简单地匹配希伯来语块中的任何代码点.

您可以将任何ASCII字符或任何希伯来字符与以下内容匹配:

[\w\u0590-\u05FF]
Run Code Online (Sandbox Code Playgroud)


小智 6

我想你正在寻找这个正则表达式:

^[??????????????????????????a-zA-z0-9\s\.\-_\\\/]+$
Run Code Online (Sandbox Code Playgroud)