比较具有特殊字符的单词时忽略变音字符(é,è,...)

Waz*_*_Be 12 java string android replace diacritics

我列出了一些比利时城市的变音字符:(Liège,Quiévrain,Franière等)我希望将这些特殊字符转换为与包含相同名称的大写字母进行比较,但没有变音符号( LIEGE,QUIEVRAIN,FRANIERE)

我首先尝试做的是使用大写:

LIEGE.contentEqual(Liège.toUpperCase())但这不合适,因为大写LiègeLIÈGE和不是LIEGE.

我有一些复杂的想法,比如替换每个角色,但这听起来很愚蠢而且过程很长.

关于如何以聪明的方式做到这一点的任何想法?

Sti*_*ael 14

从Java 6开始,您可以使用java.text.Normalizer:

public String unaccent(String s) {
    String normalized = Normalizer.normalize(s, Normalizer.Form.NFD);
    return normalized.replaceAll("[^\\p{ASCII}]", "");
}
Run Code Online (Sandbox Code Playgroud)

请注意,在Java 5中也有一个sun.text.Normalizer,但强烈建议不要使用它,因为它是Sun专有API的一部分,并已在Java 6中删除.

  • 对于那些仍然需要Java <1.6的人,[Apache Commons Lang](http://commons.apache.org/lang/api/org/apache/commons/lang3/StringUtils.html#stripAccents(java.lang.String))有一个`stripAccents`方法,在Java 6中使用`java.text.Normalizer`,在早期版本中使用`sun.text.Normalizer`.(我不知道后者是否可以在Android上使用.) (2认同)

Pen*_*m10 8

在Java中查看此方法

private static final String PLAIN_ASCII = "AaEeIiOoUu" // grave
            + "AaEeIiOoUuYy" // acute
            + "AaEeIiOoUuYy" // circumflex
            + "AaOoNn" // tilde
            + "AaEeIiOoUuYy" // umlaut
            + "Aa" // ring
            + "Cc" // cedilla
            + "OoUu" // double acute
    ;

    private static final String UNICODE = "\u00C0\u00E0\u00C8\u00E8\u00CC\u00EC\u00D2\u00F2\u00D9\u00F9"
            + "\u00C1\u00E1\u00C9\u00E9\u00CD\u00ED\u00D3\u00F3\u00DA\u00FA\u00DD\u00FD"
            + "\u00C2\u00E2\u00CA\u00EA\u00CE\u00EE\u00D4\u00F4\u00DB\u00FB\u0176\u0177"
            + "\u00C3\u00E3\u00D5\u00F5\u00D1\u00F1"
            + "\u00C4\u00E4\u00CB\u00EB\u00CF\u00EF\u00D6\u00F6\u00DC\u00FC\u0178\u00FF"
            + "\u00C5\u00E5" + "\u00C7\u00E7" + "\u0150\u0151\u0170\u0171";

    /**
     * remove accented from a string and replace with ascii equivalent
     */
    public static String removeAccents(String s) {
        if (s == null)
            return null;
        StringBuilder sb = new StringBuilder(s.length());
        int n = s.length();
        int pos = -1;
        char c;
        boolean found = false;
        for (int i = 0; i < n; i++) {
            pos = -1;
            c = s.charAt(i);
            pos = (c <= 126) ? -1 : UNICODE.indexOf(c);
            if (pos > -1) {
                found = true;
                sb.append(PLAIN_ASCII.charAt(pos));
            } else {
                sb.append(c);
            }
        }
        if (!found) {
            return s;
        } else {
            return sb.toString();
        }
    }
Run Code Online (Sandbox Code Playgroud)


jan*_*anb 6

这是迄今为止我发现的最简单的解决方案,它在我们的应用程序中完美运行.

Normalizer.normalize(string, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); 
Run Code Online (Sandbox Code Playgroud)

但我不知道Android平台上是否有Normalizer.