在“ from_delayed” JSON文件中发现DASK元数据不匹配

AWL*_*AWL 2 python dataset bigdata dask

我刚刚开始冒险,DASK就在json格式的示例数据集上学习。我知道对于初学者来说,这不是世界上最简单的数据格式:)

我有一个json格式的数据集。我通过dd.read_json将数据加载到数据帧,一切顺利。例如,compute()len()函数出现了问题。

我收到此错误:

ValueError: Metadata mismatch found in `from_delayed`.

Partition type: `DataFrame`
+----------+-------+----------+
| Column   | Found | Expected |
+----------+-------+----------+
| column1  |   -   | object   |
| column2  |   -   | object   |
+----------+-------+----------+
Run Code Online (Sandbox Code Playgroud)

我尝试了不同的方法,但没有任何帮助。我不知道该如何处理该错误。

请帮助,我将非常感谢!

MRo*_*lin 5

我的猜测是您的JSON数据在数据的不同部分具有不同的列。当Dask DataFrame加载JSON数据时,它会查看数据的第一块以确定列名和数据类型。然后假设所有数据看起来像这样。

在您的情况下,这种假设被证明是错误的,并且可能有一些列仅在文件的后面出现。

在确定诸如列名之类的元数据时,您可能考虑增加Dask读取的样本的大小。

df = dd.read_json(..., sample=2**26)
Run Code Online (Sandbox Code Playgroud)

默认值为1MB(2 ** 20)