小编ped*_*uas的帖子

如何在Python中读取大的.jl文件

我正在尝试读取以下数据集并将其转换为 pandas 数据框：
https ://www.kaggle.com/marlesson/meli-data-challenge-2020

它是一个包含以下格式行的文件：

{'event_info': '...', 'event_timestamp': '...', 'event_type': '...'}
{'event_info': '...', 'event_timestamp': '...', 'event_type': '...'}
{'event_info': '...', 'event_timestamp': '...', 'event_type': '...'}

Run Code Online (Sandbox Code Playgroud)

我一直在尝试以下方法，但花费的时间太长（+60分钟）：

import numpy as np
import pandas as pd
import fileinput
import json

%%time

df = pd.DataFrame()
with fileinput.input(files='/kaggle/input/meli-data-challenge-2020/train_dataset.jl') as file:
    for line in file:
        conv = json.loads(line)
        df = df.append(conv, ignore_index=True)
df.head()

Run Code Online (Sandbox Code Playgroud)

在此代码中，它以字符串形式逐行读取文件，将每个文件转换为 json，然后将其附加到数据帧中。

有什么方法可以更快地将数据集转换为 pandas 数据框吗？

python dataframe pandas

ped*_*uas

2020 11-10

3
推荐指数

1
解决办法

3002
查看次数