小编rga*_*lbo的帖子

Python - 如何流式传输要分解的大型 (11 gb) JSON 文件

我有一个非常大的 JSON (11 gb) 文件，它太大而无法读入我的内存。我想把它分解成更小的文件来分析数据。我目前正在使用 Python 和 Pandas 进行分析，我想知道是否有某种方法可以访问文件的块，以便可以在不使程序崩溃的情况下将其读入内存。理想情况下，我想将数年的数据分解为跨度约为一周的较小的可管理文件，但是没有固定的数据大小，尽管如果它们是设定的间隔并没有那么重要。

这是数据格式

{
"actor" : 
{
    "classification" : [ "suggested" ],
    "displayName" : "myself",
    "followersCount" : 0,
    "followingCount" : 0,
    "followingStocksCount" : 0,
    "id" : "person:stocktwits:183087",
    "image" : "http://avatars.stocktwits.com/production/183087/thumb-1350332393.png",
    "link" : "http://stocktwits.com/myselfbtc",
    "links" : 
    [

        {
            "href" : null,
            "rel" : "me"
        }
    ],
    "objectType" : "person",
    "preferredUsername" : "myselfbtc",
    "statusesCount" : 2,
    "summary" : null,
    "tradingStrategy" : 
    {
        "approach" : "Technical",
        "assetsFrequentlyTraded" : [ "Forex" ],
        "experience" : "Novice",
        "holdingPeriod" : …

Run Code Online (Sandbox Code Playgroud)

python json analysis out-of-memory pandas

rga*_*lbo

2017 09-22

4
推荐指数

1
解决办法

6640
查看次数