psycopg2 的 fast_executemany 替代方案

Question

psycopg2 的 fast_executemany 替代方案

我有一个 Redshift 服务器，它是通过 psycopg2 启动的（请注意，公司服务器不支持 ODBC，因此我无法使用 pyodbc）。

目前，通过pd.to_sql()将30-35k 行从数据帧写入 Redshift DB 需要10 多分钟。因此，作为一种解决方法，我将 DF 下载为 csv，将文件推送到 S3，然后用于copy写入数据库。

根据使用 pyODBC 的 fast_executemany 加速 Pandas.DataFrame.to_sql的fast_executemany解决方案本来是完美的 -但是psycopg2. 我还发现d6tstack根据https://github.com/d6t/d6tstack/blob/master/examples-sql.ipynb但pd_to_psql不适用于 Redshift，只有 Postgresql（不能copy... from stdin）

我可以为我的案例使用任何替代方案吗？

这是我的代码：

import sqlalchemy as sa

DATABASE = ""
USER = ""
PASSWORD = ""
HOST = "...us-east-1.redshift.amazonaws.com"
PORT = "5439"
SCHEMA = "public" 

server = "redshift+psycopg2://%s:%s@%s:%s/%s" % (USER,PASSWORD,HOST,str(PORT),DATABASE)
engine = sa.create_engine(server)
conn = engine.raw_connection()

with conn.cursor() as cur:
    cur.execute('truncate table_name')

df.to_sql('table_name', engine, index=False, if_exists='append')

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ilj*_*ilä 5

如果您无法COPY从 S3使用并且必须依赖 DML，您可以尝试传递use_batch_mode=True到create_engine()：

engine = create_engine('theurl', use_batch_mode=True)

Run Code Online (Sandbox Code Playgroud)

从这台机器向 Redshift 集群简单插入 500 行显示了启用批处理模式的合理改进：

In [31]: df = pd.DataFrame({'batchno': range(500)})

In [32]: %time df.to_sql('batch', engine, index=False, if_exists='append')
CPU times: user 87.8 ms, sys: 57.6 ms, total: 145 ms
Wall time: 1min 6s

In [33]: %time df.to_sql('batch', bm_engine, index=False, if_exists='append')
CPU times: user 10.3 ms, sys: 4.66 ms, total: 15 ms
Wall time: 9.96 s

Run Code Online (Sandbox Code Playgroud)

请注意，Pandas 0.23.0 和 0.24.0 及更高版本不会从使用批处理模式中受益，因为如果底层 DBMS 支持，它们使用多值插入而不是 executemany。使用多值插入应该会在吞吐量上提供一些类似的改进，因为发出的查询更少。

归档时间：	7 年，3 月前
查看次数：	3244 次
最近记录：	7 年，2 月前