替换C#中的字符(ascii)

Question

替换C#中的字符(ascii)

我收到了一个包含以下字符的文件:à,è,ì,ò,ù - À.我需要做的是用普通字符替换那些字符,例如:à= a,è= e等......这是我的代码到目前为止:

StreamWriter sw = new StreamWriter(@"C:/JoinerOutput.csv");
string path = @"C:/Joiner.csv";
string line = File.ReadAllText(path);

if (line.Contains("à"))
{
    string asAscii = Encoding.ASCII.GetString(Encoding.Convert(Encoding.UTF8, Encoding.GetEncoding(Encoding.ASCII.EncodingName, new EncoderReplacementFallback("a"), new DecoderExceptionFallback()), Encoding.UTF8.GetBytes(line)));
    Console.WriteLine(asAscii);
    Console.ReadLine();

    sw.WriteLine(asAscii);
    sw.Flush();
}

Run Code Online (Sandbox Code Playgroud)

基本上,这会在文件中搜索特定字符,并将其替换为另一个字符.我遇到的问题是我的if语句不起作用.我该如何解决这个问题？

这是输入文件的示例:

Dimàkàtso Mokgàlo
Màmà Ràtlàdi
Koos Nèl
Pàsèkà Modisè
Jèrèmiàh Morèmi
Khèthiwè Buthèlèzi
Tiànà Pillày
Viviàn Màswàngànyè
Thirèshàn Rèddy
Wàdè Cornèlius
ènos Nètshimbupfè

如果使用,则输出为:line = line.Replace('à','a'); :

Chï¿½rlï¿½nï¿½ Kirstï¿½n
Mï¿½mï¿½ Rï¿½tlï¿½di
Koos Nï¿½l
Pï¿½sï¿½kï¿½ Modisï¿½
Jï¿½rï¿½miï¿½h Morï¿½mi
Khï¿½thiwï¿½ Buthï¿½lï¿½zi
Tiï¿½nï¿½ Pillï¿½y
Viviï¿½n Mï¿½swï¿½ngï¿½nyï¿½
Thirï¿½shï¿½n Rï¿½ddy
Wï¿½dï¿½ Cornï¿½lius
ï¿½nos Nï¿½tshimbupfï¿½

使用我的代码,符号将被完全删除

Answer 1

dan*_*ana 18

其他人评论使用Unicode查找表来删除Diacritics.我做了一个快速的谷歌搜索,发现了这个例子.代码无耻地复制,(重新格式化),并在下面发布:

using System;
using System.Text;
using System.Globalization;

public static class Remove
{
    public static string RemoveDiacritics(string stIn)
    {
        string stFormD = stIn.Normalize(NormalizationForm.FormD);
        StringBuilder sb = new StringBuilder();

        for(int ich = 0; ich < stFormD.Length; ich++) {
            UnicodeCategory uc = CharUnicodeInfo.GetUnicodeCategory(stFormD[ich]);
            if(uc != UnicodeCategory.NonSpacingMark) {
                sb.Append(stFormD[ich]);
            }
        }

        return(sb.ToString().Normalize(NormalizationForm.FormC));
    }
}

Run Code Online (Sandbox Code Playgroud)

因此,您的代码可以通过调用来清理输入:

line = Remove.RemoveDiacritics(line);

Run Code Online (Sandbox Code Playgroud)

Answer 2

Jul*_*lia 11

不知道这是否是有用的,但在写一个LED屏上消息的内部工具,我们有如下替换(我敢肯定,有更智能的方式,使这项工作为Unicode表,但是这一次就足够了对于这个小型内部工具):

        strMessage = Regex.Replace(strMessage, "[éèëêð]", "e");
        strMessage = Regex.Replace(strMessage, "[ÉÈËÊ]", "E");
        strMessage = Regex.Replace(strMessage, "[àâä]", "a");
        strMessage = Regex.Replace(strMessage, "[ÀÁÂÃÄÅ]", "A");
        strMessage = Regex.Replace(strMessage, "[àáâãäå]", "a");
        strMessage = Regex.Replace(strMessage, "[ÙÚÛÜ]", "U");
        strMessage = Regex.Replace(strMessage, "[ùúûüµ]", "u");
        strMessage = Regex.Replace(strMessage, "[òóôõöø]", "o");
        strMessage = Regex.Replace(strMessage, "[ÒÓÔÕÖØ]", "O");
        strMessage = Regex.Replace(strMessage, "[ìíîï]", "i");
        strMessage = Regex.Replace(strMessage, "[ÌÍÎÏ]", "I");
        strMessage = Regex.Replace(strMessage, "[š]", "s");
        strMessage = Regex.Replace(strMessage, "[Š]", "S");
        strMessage = Regex.Replace(strMessage, "[ñ]", "n");
        strMessage = Regex.Replace(strMessage, "[Ñ]", "N");
        strMessage = Regex.Replace(strMessage, "[ç]", "c");
        strMessage = Regex.Replace(strMessage, "[Ç]", "C");
        strMessage = Regex.Replace(strMessage, "[ÿ]", "y");
        strMessage = Regex.Replace(strMessage, "[Ÿ]", "Y");
        strMessage = Regex.Replace(strMessage, "[ž]", "z");
        strMessage = Regex.Replace(strMessage, "[Ž]", "Z");
        strMessage = Regex.Replace(strMessage, "[Ð]", "D");
        strMessage = Regex.Replace(strMessage, "[œ]", "oe");
        strMessage = Regex.Replace(strMessage, "[Œ]", "Oe");
        strMessage = Regex.Replace(strMessage, "[«»\u201C\u201D\u201E\u201F\u2033\u2036]", "\"");
        strMessage = Regex.Replace(strMessage, "[\u2026]", "...");

Run Code Online (Sandbox Code Playgroud)

有一点需要注意的是,如果在大多数语言的文本仍然是这样的处理后,可以理解它并不总是如此,往往会迫使读者指句子的上下文是能够理解的.如果你有选择的话,不是你想要的东西.

需要注意的是正确的解决办法是使用Unicode表,用他们的"组合变音记号(S)" +文字的形式,然后除去变音符号集成变音符号代替文字...

Answer 3

rea*_*art 6

我经常使用基于Dana版本提供的扩展方法.快速解释:

归一化以形成D分裂特征,如è到e和非间距`
由此,删除了nospacing字符
结果归一化为D(我不确定这是否是必要的)

码:

using System.Linq;
using System.Text;
using System.Globalization;

// namespace here
public static class Utility
{
    public static string RemoveDiacritics(this string str)
    {
        if (str == null) return null;
        var chars =
            from c in str.Normalize(NormalizationForm.FormD).ToCharArray()
            let uc = CharUnicodeInfo.GetUnicodeCategory(c)
            where uc != UnicodeCategory.NonSpacingMark
            select c;

        var cleanStr = new string(chars.ToArray()).Normalize(NormalizationForm.FormC);

        return cleanStr;
    }
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，3 月前
查看次数：	22229 次
最近记录：	9 年，8 月前