use*_*136 5 javascript regex unicode hindi xregexp
我用梵文字的HTML代码
<html>
<head>
<title>TODO</title>
<meta charset="UTF-8">
</head>
<body>
?????? ???????????
</body>
<script src="jquery-1.11.0.min.js"></script>
<script src="xregexp_20.js"></script>
<script src="addons/unicode/unicode-base.js"></script>
<script src="addons/unicode/unicode-scripts.js"></script>
<script src="my.js"></script>
</html>
Run Code Online (Sandbox Code Playgroud)
我的javascript代码
var html = document.getElementsByTagName("html")[0];
var fullpage_content = html.innerHTML;
var regex = RegExp("??????", "g");
var count = fullpage_content.match(regex);
console.log("count in page : " + count+ ", " + count.length);
//use of word boundry ,not supported by devanagari characters
regex = RegExp("\\b??????\\b", "g");
count = fullpage_content.match(regex);
console.log("count in page : " + count);
regex = XRegExp("??????");
var match = XRegExp.matchChain(fullpage_content, [regex]);
console.log("count in page : " + match + ", " + match.length);
//xregex do not support word boundry \\b
regex = XRegExp("\\b??????\\b");
match = XRegExp.matchChain(fullpage_content, [regex]);
console.log("count in page : " + match + ", " + match.length);
Run Code Online (Sandbox Code Playgroud)
输出js(在Chrome上)
在页面中计数:मंत्री,मंत्री,2
count in page:null
在页面中计数:मंत्री,मंत्री,2
在页面中计数:,0
全字搜索应该给出一个答案,但正则表达式和XRegExp都失败了.我需要一些帮助.
regex = XRegExp("(?:^|[^\\\\p{Devanagari}\\\\p{L}])\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80(?=[^\\\\p{Devanagari}\\\\p{L}]|$)");\nRun Code Online (Sandbox Code Playgroud)\n\n解决了它。特别感谢路易斯。\n在最终确定之前,我测试了更严格的测试用例。
\n\n\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\xe0 \xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4 \xb0\xe0\xa5\x80 \xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae \xe0\xa4\x82 \xe0\xa4\xae\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80 \xe0 \xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4 \xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0 \xe0\xa5\x80。.\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\ xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80- <\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\ xe0\xa4\xb0\xe0\xa5\x80 \xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80> \xe0 \xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,,\xe0\xa4\xae\xe0\xa4\x82\xe0 \xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80 ,\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\ xa4\xb0\xe0\xa5\x80,\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,\xe0\ xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,,\xe0\xa4\xae\xe0\xa4\x82\xe0\ xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4 \xb0\xe0\xa5\x80,
\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,\xe0\xa4\xae\xe0\xa4\x82\ xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80
\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80,\xe0\xa4\xae\xe0\xa4\x82\ xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa4\x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\ xa4\xb0\xe0\xa5\x80\xe0\xa4\xae\xe0\xa5\x81\xe0\xa4\x96\xe0\xa5\x8d\xe0\xa4\xaf\xe0\xa4\xae\xe0\xa4\ x82\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa5\x80\n