如何使用全字正则表达式搜索梵文文本?

use*_*136 5 javascript regex unicode hindi xregexp

我用梵文字的HTML代码

<html>
<head>
<title>TODO</title>
<meta charset="UTF-8">
</head>
<body>
    ?????? ??????????? 
</body>
    <script src="jquery-1.11.0.min.js"></script>
    <script src="xregexp_20.js"></script>
    <script src="addons/unicode/unicode-base.js"></script>
    <script src="addons/unicode/unicode-scripts.js"></script>
    <script src="my.js"></script>
</html>
Run Code Online (Sandbox Code Playgroud)

我的javascript代码

var html = document.getElementsByTagName("html")[0];
var fullpage_content = html.innerHTML;

var regex = RegExp("??????", "g");
var count = fullpage_content.match(regex);
console.log("count in page : " + count+ ", " + count.length);

//use of word boundry ,not supported by devanagari characters
regex = RegExp("\\b??????\\b", "g");
count = fullpage_content.match(regex);
console.log("count in page : " + count);

regex = XRegExp("??????");
var match = XRegExp.matchChain(fullpage_content, [regex]);
console.log("count in page : " + match + ", " + match.length);

//xregex do not support word boundry \\b
regex = XRegExp("\\b??????\\b");
match = XRegExp.matchChain(fullpage_content, [regex]);
console.log("count in page : " + match + ", " + match.length);
Run Code Online (Sandbox Code Playgroud)

输出js(在Chrome上)

在页面中计数:मंत्री,मंत्री,2

count in page:null

在页面中计数:मंत्री,मंत्री,2

在页面中计数:,0

全字搜索应该给出一个答案,但正则表达式和XRegExp都失败了.我需要一些帮助.

use*_*136 1

regex = XRegExp("(?:^|[^\\\\p{Devanagari}\\\\p{L}])\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80(?=[^\\\\p{Devanagari}\\\\p{L}]|$)");\n
Run Code Online (Sandbox Code Playgroud)\n\n

解决了它。特别感谢路易斯。\n在最终确定之前,我测试了更严格的测试用例。

\n\n

\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\xe0 \xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4 \xb0\xe0\xa5\x80 \xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae \xe0\xa4\x82 \xe0\xa4\xae\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80 \xe0 \xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4 \xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0 \xe0\xa5\x80。.\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\ xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80- <\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\ xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80> \xe0 \xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,,\xe0\xa4\xae\xe0\xa4\x82\xe0 \xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80 ,\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\ xa4\xb0\xe0\xa5\x80,\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,\xe0\ xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,,\xe0\xa4\xae\xe0\xa4\x82\xe0\ xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4 \xb0\xe0\xa5\x80,

\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,\xe0\xa4\xae\xe0\xa4\x82\ xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80

\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,\xe0\xa4\xae\xe0\xa4\x82\ xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\ xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa5\x81\xe0\xa4\x96\xe0\xa5\x8d\xe0\xa4\xaf\xe0\xa4\xae\xe0\xa4\ x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80

\n