假设我有以下代码:
String description = "????? ? ? This description ?? ? ? ? is a mess. ? ? ?????";
Run Code Online (Sandbox Code Playgroud)
我想删除非拉丁字符:?,?,?,?,?,?和?.
它变成了这个: This description is a mess.
我知道可能有很多类似于翼状的角色,所以不要指定我想删除的内容,我认为最好列出我想要保留的内容:基本拉丁语和拉丁语1补充字符.
我发现我可以使用以下代码删除除基本拉丁字符之外的所有内容
String clean_description = description.replaceAll("[^\\x00-\\x7F]", "").trim();
但有没有办法保留Latin-1补充字符?