在 python 中处理大型 JSON 数据

Question

在 python 中处理大型 JSON 数据

thg*_*hg1 5 python json bigdata pandas data-science

我的 JSON (~500mb) 文件有多个 JSON objetcs，实际上我只需要使用“customer_id”列。当我执行下面的代码时，它会出现内存错误。

with open('online_pageviews.json') as f:
     online_pageviews = pd.DataFrame(json.loads(line) for line in f)

Run Code Online (Sandbox Code Playgroud)

这是“online_pageviews.json”中的 JSON 对象示例

{
"date": "2018-08-01",
"visitor_id": "3832636531373538373137373",
"deviceType": "mobile",
"pageType": "product",
"category_id": "6365313034",
"on_product_id": "323239323839626",
"customer_id": "33343163316564313264"
}

Run Code Online (Sandbox Code Playgroud)

有没有办法只使用“customer_id”列？我该怎么做才能加载这个文件？

Answer 1

Kar*_*hoo 3

如果您管理实际流动的数据量，您应该能够做到这一点。由于您只需要客户 ID，因此无需将任何其他数据加载到数据框中。

customer_id_array = []
with open('online_pageviews.json') as f:
    for line in f:
        customer_id_array.append(json.loads(line)['customer_id'])
online_pageviews = pd.DataFrame(customer_id_array,columns = ['customer_id'])

Run Code Online (Sandbox Code Playgroud)

通过这种方式，您可以显着减少之前使用的额外内存量。

（我不确定您的系统是否能够处理这个问题，因为customer_id_array仍然会变得相当大，但它应该比以前好得多。如果不能，您可能需要寻找一些在线选项来租用具有更多内存的系统。）

归档时间：	5 年，9 月前
查看次数：	103 次
最近记录：	5 年，9 月前