相关疑难解决方法(0)

将大熊猫DataFrame保存到S3的最快方法是什么?

我正在尝试找出将大熊猫DataFrame写入S3文件系统的最快方法。我目前正在尝试两种方法:

1)通过gzip压缩(BytesIO)和boto3

gz_buffer = BytesIO()

with gzip.GzipFile(mode='w', fileobj=gz_buffer) as gz_file:
    df.to_csv(TextIOWrapper(gz_file, 'utf8'), index=False)

s3_resource = boto3.resource('s3')
s3_object = s3_resource.Object(bucket, s3_path + name_zip)
s3_object.put(Body=gz_buffer.getvalue())
Run Code Online (Sandbox Code Playgroud)

对于700万行的数据帧,大约需要420秒才能写入S3。

2)通过不压缩即可写入csv文件(StringIO缓冲区)

csv_buffer = StringIO()
data.to_csv(csv_buffer)
s3_resource = boto3.resource('s3')
s3_resource.Object(bucket, s3_path + name_csv).put(Body=csv_buffer.getvalue())
Run Code Online (Sandbox Code Playgroud)

大约需要371秒...

问题是:还有其他更快的方法可以将熊猫数据帧写入S3吗?

amazon-s3 python-3.x pandas

4
推荐指数
1
解决办法
1530
查看次数

标签 统计

amazon-s3 ×1

pandas ×1

python-3.x ×1