小编Rob*_*icR的帖子

Java从字符串中删除非拉丁语基本字符

假设我有以下代码:

String description = "?????  ? ? This description ??  ? ? ?  is a mess. ? ? ?????";
Run Code Online (Sandbox Code Playgroud)

我想删除非拉丁字符:?,?,?,?,?,??.

它变成了这个: This description is a mess.

我知道可能有很多类似于翼状的角色,所以不要指定我想删除的内容,我认为最好列出我想要保留的内容:基本拉丁语拉丁语1补充字符.

我发现我可以使用以下代码删除除基本拉丁字符之外的所有内容

String clean_description = description.replaceAll("[^\\x00-\\x7F]", "").trim();

但有没有办法保留Latin-1补充字符?

java regex unicode

6
推荐指数
2
解决办法
2702
查看次数

标签 统计

java ×1

regex ×1

unicode ×1