如何在JavaScript中使用支持Unicode的正则表达式?例如,应该有类似于\ w的东西可以匹配字母或标记类别中的任何代码点(不仅仅是ASCII代码),并且希望像[[P*]]这样的过滤器用于标点符号等.
我需要验证文本输入,以便用户可以插入可能包含德语变音符号,法语口音和任何其他有效欧洲字符的字符/文本,例如小写ø.
我正在使用AngularJS,所以我将验证规则应用于ng-pattern属性,如下所示:
ng-pattern="/^[A-Za-z0-9 \-_.]*$/"
Run Code Online (Sandbox Code Playgroud)
我希望这会涵盖像äöüß这样的角色,但是在测试它时却没有.很抱歉问这么蹩脚的问题,但我在RegEx真的很糟糕!必须有比手动列出这样的字母更好的方法ng-pattern="/^[A-Za-z0-9äöüÄÖÜ \-_.]*$/"
我当前使用的正则表达式如下:
var sentences = fulltext.match(/[^\.!\?]+[\.!\?]+/g);
Run Code Online (Sandbox Code Playgroud)
这会返回一个数组,其中的句子被分割,包括空格(我需要所有字符)。问题是,它不适用于省略号“...”,我想它也不适用于其他非常规形式的标点符号。
如何修复我的正则表达式以匹配此标点符号和其他形式的标点符号?
有没有任何新手友好的 REGEX 示例驱动指南?