MySQL中的Sqlalchemy批量更新工作非常慢

Question

MySQL中的Sqlalchemy批量更新工作非常慢

twd*_*wds 5 python mysql bulkinsert sqlalchemy bulkupdate

我正在使用SQLAlchemy 1.0.0,并希望UPDATE ONLY批量生成一些(更新,如果匹配主键,则不执行任何操作)查询.

我做了一些实验,发现批量更新看起来比批量插入或批量更慢upsert.

能否请你帮我指出为什么它的工作如此缓慢或是否有其他方法/想法来制作BULK UPDATE (not BULK UPSERT) with SQLAlchemy？

下面是MYSQL中的表:

CREATE TABLE `test` (
  `id` int(11) unsigned NOT NULL,
  `value` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;

Run Code Online (Sandbox Code Playgroud)

和测试代码:

from sqlalchemy import create_engine, text
import time

driver = 'mysql'
host = 'host'
user = 'user'
password = 'password'
database = 'database'
url = "{}://{}:{}@{}/{}?charset=utf8".format(driver, user, password, host, database)

engine = create_engine(url)
engine.connect()

engine.execute('TRUNCATE TABLE test')

num_of_rows = 1000

rows = []
for i in xrange(0, num_of_rows):
    rows.append({'id': i, 'value': i})

print '--------- test insert --------------'
sql = '''
    INSERT INTO test (id, value)
    VALUES (:id, :value)
'''
start = time.time()
engine.execute(text(sql), rows)
end = time.time()
print 'Cost {} seconds'.format(end - start)

print '--------- test upsert --------------'
for r in rows:
    r['value'] = r['id'] + 1

sql = '''
    INSERT INTO test (id, value)
    VALUES (:id, :value)
    ON DUPLICATE KEY UPDATE value = VALUES(value)
'''
start = time.time()
engine.execute(text(sql), rows)
end = time.time()
print 'Cost {} seconds'.format(end - start)

print '--------- test update --------------'
for r in rows:
    r['value'] = r['id'] * 10

sql = '''
    UPDATE test
    SET value = :value
    WHERE id = :id
'''
start = time.time()
engine.execute(text(sql), rows)
end = time.time()
print 'Cost {} seconds'.format(end - start)

Run Code Online (Sandbox Code Playgroud)

num_of_rows = 100时的输出:

--------- test insert --------------
Cost 0.568960905075 seconds
--------- test upsert --------------
Cost 0.569655895233 seconds
--------- test update --------------
Cost 20.0891299248 seconds

Run Code Online (Sandbox Code Playgroud)

num_of_rows = 1000时的输出:

--------- test insert --------------
Cost 0.807548999786 seconds
--------- test upsert --------------
Cost 0.584554195404 seconds
--------- test update --------------
Cost 206.199367046 seconds

Run Code Online (Sandbox Code Playgroud)

数据库服务器的网络延迟大约为500毫秒.

看起来像批量更新它一个接一个地发送和执行每个查询,而不是批处理？

提前致谢.

Answer 1

pi.*_*pi. 5

即使数据库服务器（如您的情况）的延迟非常严重，您也可以使用技巧来加快批量更新操作的速度。您不是直接更新表，而是使用阶段表非常快速地插入新数据，然后对目标表执行一次连接更新。这还有一个优点，即可以显着减少必须发送到数据库的语句数量。

这如何与更新一起使用？

假设您有一个表entries，并且一直有新数据进来，但您只想更新那些已经存储的数据。您创建目标表的副本，entries_stage其中仅包含相关字段：

entries = Table('entries', metadata,
    Column('id', Integer, autoincrement=True, primary_key=True),
    Column('value', Unicode(64), nullable=False),
)

entries_stage = Table('entries_stage', metadata,
    Column('id', Integer, autoincrement=False, unique=True),
    Column('value', Unicode(64), nullable=False),
)

Run Code Online (Sandbox Code Playgroud)

然后，您可以通过批量插入来插入数据。如果您使用 MySQL 的多值插入语法，则可以进一步加快速度，SQLAlchemy 本身不支持该语法，但构建起来没有太大困难。

INSERT INTO enries_stage (`id`, `value`)
VALUES
(1, 'string1'), (2, 'string2'), (3, 'string3'), ...;

Run Code Online (Sandbox Code Playgroud)

最后，您使用阶段表中的值更新目标表的值，如下所示：

 UPDATE entries e
 JOIN entries_stage es ON e.id = es.id
 SET e.value = es.value
 WHERE e.value != es.value;

Run Code Online (Sandbox Code Playgroud)

然后你就完成了。

那么插入物呢？

当然，这也可以加快插入速度。由于您已经在stage-table中拥有了数据，因此您所需要做的就是使用目标表INSERT INTO ... SELECT中尚未包含的数据发出一条语句。

INSERT INTO entries (id, value) SELECT FROM entries_stage es LEFT JOIN entries e ON e.id = es.id HAVING e.id IS NULL;
Run Code Online (Sandbox Code Playgroud)
这样做的好处是，您不必执行INSERT IGNORE、REPLACE或ON DUPLICATE KEY UPDATE，这会增加您的主键，即使它们什么也不做。

归档时间：	10 年，2 月前
查看次数：	1519 次
最近记录：	10 年，2 月前