如何在不使用 Pyspark 的情况下在 Python 中写入增量表/增量格式?

FRI*_*IET 13 python dataframe pandas delta-lake

我正在寻找一种在 python 中写回增量表而不使用 pyspark 的方法。我知道有一个名为 deltalake/ delta-lake-reader 的库,可用于读取 delta 表并将其转换为 pandas 数据帧。

目标是写回打开的增量表

输入代码如下所示:

from deltalake import DeltaTable
dt = DeltaTable('path/file')
df = dt.to_pandas()
Run Code Online (Sandbox Code Playgroud)

那么有没有办法让这样的东西从 pandas 数据帧写回增量表:

df = pandadf.to_delta()
DeltaTable.write(df, 'path/file')
Run Code Online (Sandbox Code Playgroud)

谢谢您的帮助!

Mim*_*Mim 14

现在支持了!!!,看这个例子

import duckdb 
from deltalake.writer import write_deltalake
df =duckdb.sql('''
LOAD 'httpfs';
SELECT countries_and_territories, sum(deaths) as total FROM 
read_parquet('https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/ecdc_cases/latest/ecdc_cases.parquet')
group by 1
order by total desc
limit 5;
''').df()
write_deltalake('Pathto/covid', df,mode='append')
Run Code Online (Sandbox Code Playgroud)