Pta*_*tah 6 python amazon-s3 parquet aws-lambda pyarrow
我正在尝试使用AWS Lambda在S3中加载,处理和编写Parquet文件。我的测试/部署过程是:
似乎有两种可能的方法,它们都在docker容器本地工作:
pyarrow与s3fs:我遵循了https://github.com/apache/arrow/pull/916,当使用lambda函数执行时,我得到了:
OSError: Passed non-file path: s3://mybucket/path/to/myfile中pyarrow / parquet.py,线848局部我得到IndexError: list index out of range在pyarrow / parquet.py,线714OSError: Passed non-file path: s3://mybucket/path/to/myfile在pyarrow / parquet.py的第848行中得到了相同的结果。 我的问题是:
谢谢!
AWS 有一个项目 ( AWS Data Wrangler ) 允许它具有完整的 Lambda 层支持。
在 Docs 中有一步一步来做到这一点。
代码示例:
import awswrangler as wr
# Write
wr.s3.to_parquet(
dataframe=df,
path="s3://...",
dataset=True,
database="my_database", # Optional, only with you want it available on Athena/Glue Catalog
table="my_table",
partition_cols=["PARTITION_COL_NAME"])
# READ
df = wr.s3.read_parquet(path="s3://...")
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
4389 次 |
| 最近记录: |