您好我想从字符串中删除所有无效的XML字符.我想使用string.replace方法的正则表达式.
喜欢
line.replace(regExp,"");
什么是正确的regExp使用?
无效的XML字符是不是这样的一切:
[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
Run Code Online (Sandbox Code Playgroud)
谢谢.
我的问题很简单但令人费解.可能有一个简单的开关可以解决这个问题,但我对Java正则表达不太熟悉......
String line = "";
line.replaceAll("(?i)(.)\\1{2,}", "$1");
Run Code Online (Sandbox Code Playgroud)
这崩溃了.如果我取下(?i)开关,它就可以了.三个unicode字符不是随机的,它们是在韩文大文中发现的,但我不知道它们是否有效.
奇怪的是,正则表达式适用于所有其他文本,但这一点.为什么我会收到错误?
这是我得到的例外
Exception in thread "main" java.lang.StringIndexOutOfBoundsException: String index out of range: 6
at java.lang.String.charAt(String.java:658)
at java.lang.Character.codePointAt(Character.java:4668)
at java.util.regex.Pattern$CIBackRef.match(Pattern.java:4846)
at java.util.regex.Pattern$Curly.match(Pattern.java:4125)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4615)
at java.util.regex.Pattern$CharProperty.match(Pattern.java:3694)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4556)
at java.util.regex.Pattern$Start.match(Pattern.java:3408)
at java.util.regex.Matcher.search(Matcher.java:1199)
at java.util.regex.Matcher.find(Matcher.java:592)
at java.util.regex.Matcher.replaceAll(Matcher.java:902)
at java.lang.String.replaceAll(String.java:2162)
at tokenizer.Test.main(Test.java:51)
Run Code Online (Sandbox Code Playgroud) 扬声器图标unicode 1f50a是"其他符号和象形文字"系列中的5位数字,当我尝试显示它时,我得到"a",所以显然我得到1f50(不存在空白),然后是"a".我可以显示任何4位数的unicode字符,但无法找到如何显示较长的字符.我知道平板电脑可以显示它,因为我可以在Unicode地图应用程序中看到它.
textSound = (TextView)findViewById(R.id.textSound);
textSound.setText("\u1f50a");
Run Code Online (Sandbox Code Playgroud) 我正在开发Android应用程序,我不希望人们在输入中使用表情符号.
如何从字符串中删除表情符号字符?
我正在尝试使用请求库将包含花哨的unicode符号的文本片段发布到Web服务.我正在使用Python 3.5.
text = "Två dagar kvar"
r = requests.post("http://json-tagger.herokuapp.com/tag", data=text)
print(r.json()
Run Code Online (Sandbox Code Playgroud)
我得到一个UnicodeEncodeError,但我无法弄清楚我在做什么我做错了,请求的文档只讨论我看到的GET请求中的unicode.
UnicodeEncodeError Traceback (most recent call last)
<ipython-input-125-3ebcae3d7918> in <module>()
19 print("cleaned : " + line)
20
---> 21 r = requests.post("http://json-tagger.herokuapp.com/tag", data=line)
22 sentences = r.json()['sentences']
23 for sentence in sentences:
//anaconda/lib/python3.4/site-packages/requests/api.py in post(url, data, json, **kwargs)
105 """
106
--> 107 return request('post', url, data=data, json=json, **kwargs)
108
109
//anaconda/lib/python3.4/site-packages/requests/api.py in request(method, url, **kwargs)
51 # cases, and look like a memory leak in …Run Code Online (Sandbox Code Playgroud) 我试图用java替换阿拉伯语推文中的表情符号.
我用过这段代码:
String line = "???? ????? ??? ???????? ????? ??? ??? ?? ??? ???? ";
Pattern unicodeOutliers = Pattern.compile("([\u1F601-\u1F64F])", Pattern.UNICODE_CASE | Pattern.CANON_EQ | Pattern.CASE_INSENSITIVE);
Matcher unicodeOutlierMatcher = unicodeOutliers.matcher(line);
line = unicodeOutlierMatcher.replaceAll(" $1 ");
Run Code Online (Sandbox Code Playgroud)
但它并没有取代它们.即使我只匹配字符本身"\ u1F602",它也不会替换它.可能是因为它是你之后的5位数?!我不确定,只是一个猜测.
注意:
1-推特结束时的情绪()是"U + 1F602",即"面对欢乐的泪水"
2-这个问题不是重复的问题.
有任何想法吗?
如何从字符串中删除特定字符.我有一个Arraylist测试阵列.
String line=testingarray.get(index).toString();
Run Code Online (Sandbox Code Playgroud)
我想从行中删除一个特定的字符.
我有一个uniCodes数组
int uniCode[]={1611,1614,1615,1616,1617,1618};
Run Code Online (Sandbox Code Playgroud)
我想删除那些具有这些Unicodes的字符.