C#中的快速字符串解析

Question

C#中的快速字符串解析

Bra*_*son 6 c# parsing

在C#中解析字符串的最快方法是什么？

目前我只是使用字符串索引(string[index])并且代码运行合理,但我不禁想到索引访问器所做的连续范围检查必须添加一些内容.

所以,我想知道我应该考虑采用哪些技术来提升它.这些是我最初的想法/问题:

使用类似的方法string.IndexOf(),并IndexOfAny()找到感兴趣的字符.这些比手动扫描字符串更快string[index]吗？
使用正则表达式.就个人而言,我不喜欢正则表达式,因为我发现它们难以维护,但这些可能比手动扫描字符串更快吗？
使用不安全的代码和指针.这将消除索引范围检查,但我已经读过不安全的代码不会在不受信任的环境中运行.究竟是什么意思呢？这是否意味着整个程序集不会加载/运行,或只是标记为不安全的代码拒绝运行？该库可能会在许多环境中使用,因此能够回退到更慢但更兼容的模式会很不错.
我还能考虑什么？

注意:我应该说,我正在解析的字符串可能相当大(比如30k),而且是自定义格式,没有标准的.NET解析器.此外,这段代码的表现并不是非常关键,所以这部分只是好奇心的理论问题.

Answer 1

Mar*_*ell 2

30k 并不是我认为的大。在兴奋之前，我先介绍一下。索引器应该能够很好地实现灵活性和安全性的最佳平衡。

例如，要创建一个 128k 字符串（以及相同大小的单独数组），用垃圾填充它（包括处理的时间Random）并通过索引器对所有字符代码点求和需要... 3ms：

        var watch = Stopwatch.StartNew();
        char[] chars = new char[128 * 1024];
        Random rand = new Random(); // fill with junk
        for (int i = 0; i < chars.Length; i++) chars[i] =
             (char) ((int) 'a' + rand.Next(26));

        int sum = 0;
        string s = new string(chars);
        int len = s.Length;
        for(int i = 0 ; i < len ; i++)
        {
            sum += (int) chars[i];
        }
        watch.Stop();
        Console.WriteLine(sum);
        Console.WriteLine(watch.ElapsedMilliseconds + "ms");
        Console.ReadLine();

Run Code Online (Sandbox Code Playgroud)

对于实际上很大的文件，应该使用阅读器StreamReader方法 -等等。

归档时间：	15 年，8 月前
查看次数：	6374 次
最近记录：	15 年，8 月前