C#并排合并两个或多个文本文件

Question

C#并排合并两个或多个文本文件

using (StreamWriter writer = File.CreateText(FinishedFile))
{
    int lineNum = 0;
    while (lineNum < FilesLineCount.Min())
    {
        for (int i = 0; i <= FilesToMerge.Count() - 1; i++)
        {
            if (i != FilesToMerge.Count() - 1)
            {
                var CurrentFile = File.ReadLines(FilesToMerge[i]).Skip(lineNum).Take(1);
                string CurrentLine = string.Join("", CurrentFile);
                writer.Write(CurrentLine + ",");
            }
            else
            {
                var CurrentFile = File.ReadLines(FilesToMerge[i]).Skip(lineNum).Take(1);
                string CurrentLine = string.Join("", CurrentFile);
                writer.Write(CurrentLine + "\n");
            }
        }
        lineNum++;
    }
}

Run Code Online (Sandbox Code Playgroud)

我目前这样做的方式太慢了.我正在合并每个50k +行长的文件和不同数量的数据.

例如:文件1
1
2
3
4

档案2
4
3
2
1

我需要将它合并成第三个文件
文件3
1,4
2,3
3,2
4,1

P.S. 用户可以从任何位置选择任意数量的文件.
谢谢您的帮助.

Answer 1

Tim*_*ter 5

由于循环Skip和Take循环,你的方法很慢.

您可以使用字典来收集所有行索引行:

string[] allFileLocationsToMerge = { "filepath1", "filepath2", "..." };
var mergedLists = new Dictionary<int, List<string>>();
foreach (string file in allFileLocationsToMerge)
{
    string[] allLines = File.ReadAllLines(file);
    for (int lineIndex = 0; lineIndex < allLines.Length; lineIndex++)
    {
        bool indexKnown = mergedLists.TryGetValue(lineIndex, out List<string> allLinesAtIndex);
        if (!indexKnown)
            allLinesAtIndex = new List<string>();
        allLinesAtIndex.Add(allLines[lineIndex]);
        mergedLists[lineIndex] = allLinesAtIndex;
    }
}

IEnumerable<string> mergeLines = mergedLists.Values.Select(list => string.Join(",", list));
File.WriteAllLines("targetPath", mergeLines);

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，12 月前
查看次数：	76 次
最近记录：	7 年，12 月前