拆分大型 JSON 文件的策略

sur*_*ude 2 c# json stream json.net

我正在尝试将给定数组的非常大的 JSON 文件拆分为较小的文件。例如:

{
    "headerName1": "headerVal1",
    "headerName2": "headerVal2",
    "headerName3": [{
        "element1Name1": "element1Value1"
    },
    {
        "element2Name1": "element2Value1"
    },
    {
        "element3Name1": "element3Value1"
    },
    {
        "element4Name1": "element4Value1"
    },
    {
        "element5Name1": "element5Value1"
    },
    {
        "element6Name1": "element6Value1"
    }]
}
Run Code Online (Sandbox Code Playgroud)

...向下到 { "elementNName1": "elementNValue1" } 其中 N 是一个很大的数字

用户提供代表要拆分的数组的名称(在本例中为“headerName3”)以及每个文件的数组对象数量,例如 1,000,000

这将导致 N 个文件,每个文件中包含顶级名称:值对 (headerName1, headerName3) 以及最多 1,000,000 个 headerName3 对象。

我正在使用优秀的 Newtonsof JSON.net 并了解我需要使用流来完成此操作。

到目前为止,我已经查看了 JToken 对象中的读取,以确定读取令牌时 PropertyName == "headerName3" 发生的位置,但我想做的是读取数组中每个对象的整个 JSON 对象,而不是读取继续将 JSON 解析为 JToken;

这是我迄今为止正在构建的代码片段:

        using (StreamReader oSR = File.OpenText(strInput))
        {
            using (var reader = new JsonTextReader(oSR))
            {
                while (reader.Read())
                {
                    if (reader.TokenType == JsonToken.StartObject)
                    {
                        intObjectCount++;
                    }
                    else if (reader.TokenType == JsonToken.EndObject)
                    {
                        intObjectCount--;

                        if (intObjectCount == 1)
                        {
                            intArrayRecordCount++;
                            // Here I want to read the entire object for this record into an untyped JSON object

                            if( intArrayRecordCount % 1000000 == 0)
                            {
                                //write these to the split file
                            }
                        }
                    }
                }
            }
        }
Run Code Online (Sandbox Code Playgroud)

我不知道(事实上,也不关心)JSON 本身的结构,并且数组中的对象可以具有不同的结构。因此,我不会序列化为类。

这是正确的方法吗?我可以轻松地使用 JSON.net 库中的一组方法来执行此类操作吗?

任何帮助表示赞赏。

dbc*_*dbc 5

您可以使用JsonWriter.WriteToken(JsonReader reader, true)将单个数组条目及其后代从 a 流式传输JsonReader到 a JsonWriter。您还可以使用JProperty.Load(JsonReader reader)JProperty.WriteTo(JsonWriter writer)来读取和写入整个属性及其后代。

使用这些方法,您可以创建一个状态机,用于解析 JSON 文件、迭代根对象、加载“前缀”和“后缀”属性、拆分数组属性,并将前缀、数组切片和后缀属性写入到新文件。

这是一个原型实现,它采用一个TextReader回调函数来TextWriter为分割文件创建顺序输出对象:

    enum SplitState
    {
        InPrefix,
        InSplitProperty,
        InSplitArray,
        InPostfix,
    }

    public static void SplitJson(TextReader textReader, string tokenName, long maxItems, Func<int, TextWriter> createStream, Formatting formatting)
    {
        List<JProperty> prefixProperties = new List<JProperty>();
        List<JProperty> postFixProperties = new List<JProperty>();
        List<JsonWriter> writers = new List<JsonWriter>();

        SplitState state = SplitState.InPrefix;
        long count = 0;

        try
        {
            using (var reader = new JsonTextReader(textReader))
            {
                bool doRead = true;
                while (doRead ? reader.Read() : true)
                {
                    doRead = true;
                    if (reader.TokenType == JsonToken.Comment || reader.TokenType == JsonToken.None)
                        continue;
                    if (reader.Depth == 0)
                    {
                        if (reader.TokenType != JsonToken.StartObject && reader.TokenType != JsonToken.EndObject)
                            throw new JsonException("JSON root container is not an Object");
                    }
                    else if (reader.Depth == 1 && reader.TokenType == JsonToken.PropertyName)
                    {
                        if ((string)reader.Value == tokenName)
                        {
                            state = SplitState.InSplitProperty;
                        }
                        else
                        {
                            if (state == SplitState.InSplitProperty)
                                state = SplitState.InPostfix;
                            var property = JProperty.Load(reader);
                            doRead = false; // JProperty.Load() will have already advanced the reader.
                            if (state == SplitState.InPrefix)
                            {
                                prefixProperties.Add(property);
                            }
                            else
                            {
                                postFixProperties.Add(property);
                            }
                        }
                    }
                    else if (reader.Depth == 1 && reader.TokenType == JsonToken.StartArray && state == SplitState.InSplitProperty)
                    {
                        state = SplitState.InSplitArray;
                    }
                    else if (reader.Depth == 1 && reader.TokenType == JsonToken.EndArray && state == SplitState.InSplitArray)
                    {
                        state = SplitState.InSplitProperty;
                    }
                    else if (state == SplitState.InSplitArray && reader.Depth == 2)
                    {
                        if (count % maxItems == 0)
                        {
                            var writer = new JsonTextWriter(createStream(writers.Count)) { Formatting = formatting };
                            writers.Add(writer);
                            writer.WriteStartObject();
                            foreach (var property in prefixProperties)
                                property.WriteTo(writer);
                            writer.WritePropertyName(tokenName);
                            writer.WriteStartArray();
                        }
                        count++;
                        writers.Last().WriteToken(reader, true);
                    }
                    else
                    {
                        throw new JsonException("Internal error");
                    }
                }
            }
            foreach (var writer in writers)
                using (writer)
                {
                    writer.WriteEndArray();
                    foreach (var property in postFixProperties)
                        property.WriteTo(writer);
                    writer.WriteEndObject();
                }
        }
        finally
        {
            // Make sure files are closed in the event of an exception.
            foreach (var writer in writers)
                using (writer)
                {
                }

        }
    }
Run Code Online (Sandbox Code Playgroud)

此方法使所有文件保持打开状态,直到最后,以防需要附加出现在数组属性之后的“后缀”属性。请注意,一次打开文件的数量上限为 16384 个,因此,如果您需要创建更多拆分文件,则此方法不起作用。如果在实践中从未遇到后缀属性,您可以在打开下一个文件之前关闭每个文件,并在发现任何后缀属性时抛出异常。否则,您可能需要分两次解析大文件或关闭并重新打开拆分文件以追加它们。

以下是如何使用该方法与内存中 JSON 字符串的示例:

    private static void TestSplitJson(string json, string tokenName)
    {
        var builders = new List<StringBuilder>();
        using (var reader = new StringReader(json))
        {
            SplitJson(reader, tokenName, 2, i => { builders.Add(new StringBuilder()); return new StringWriter(builders.Last()); }, Formatting.Indented);
        }
        foreach (var s in builders.Select(b => b.ToString()))
        {
            Console.WriteLine(s);
        }
    }
Run Code Online (Sandbox Code Playgroud)

原型小提琴

  • 我现在已经成功地采用了您的原型并使用 StreamWriter 对象而不是字符串生成器,并且它工作得很好。使用 &gt;25GB 的输入文件,我在不到 1 分钟的时间内获得了 1,000,000 个分割文件。谢谢! (2认同)