如何在非常大的MySQL表上提高INSERT性能

jbd*_*dev 8 mysql database performance insert insert-update

我正在研究一个大型MySQL数据库,我需要提高特定表上的INSERT性能.这个包含大约200百万行,其结构如下:

(一个小前提:我不是数据库专家,所以我编写的代码可能基于错误的基础.请帮助我理解我的错误:))

CREATE TABLE IF NOT EXISTS items (
    id INT NOT NULL AUTO_INCREMENT,
    name VARCHAR(200) NOT NULL,
    key VARCHAR(10) NOT NULL,
    busy TINYINT(1) NOT NULL DEFAULT 1,
    created_at DATETIME NOT NULL,
    updated_at DATETIME NOT NULL,

    PRIMARY KEY (id, name),
    UNIQUE KEY name_key_unique_key (name, key),
    INDEX name_index (name)
) ENGINE=MyISAM
PARTITION BY LINEAR KEY(name)
PARTITIONS 25;
Run Code Online (Sandbox Code Playgroud)

每天我收到许多csv文件,其中每一行由"name; key"对组成,所以我必须解析这些文件(为每行添加值created_at和updated_at)并将值插入到我的表中.在这一个中,"name"和"key"的组合必须是UNIQUE,所以我实现了如下插入过程:

CREATE TEMPORARY TABLE temp_items (
    id INT NOT NULL AUTO_INCREMENT,
    name VARCHAR(200) NOT NULL, 
    key VARCHAR(10) NOT NULL, 
    busy TINYINT(1) NOT NULL DEFAULT 1,  
    created_at DATETIME NOT NULL, 
    updated_at DATETIME NOT NULL,  
    PRIMARY KEY (id) 
    ) 
ENGINE=MyISAM;

LOAD DATA LOCAL INFILE 'file_to_process.csv' 
INTO TABLE temp_items
FIELDS TERMINATED BY ',' 
OPTIONALLY ENCLOSED BY '\"' 
(name, key, created_at, updated_at); 

INSERT INTO items (name, key, busy, created_at, updated_at) 
(
    SELECT temp_items.name, temp_items.key, temp_items.busy, temp_items.created_at, temp_items.updated_at 
    FROM temp_items
) 
ON DUPLICATE KEY UPDATE busy=1, updated_at=NOW();

DROP TEMPORARY TABLE temp_items;
Run Code Online (Sandbox Code Playgroud)

刚刚显示的代码允许我达到我的目标,但是,为了完成执行,它需要大约48小时,这是一个问题.我认为这种糟糕的性能是由于脚本必须检查一个非常大的表(200百万行),并且对于每个插入,该对"name; key"是唯一的.

如何提高脚本的性能?

感谢所有提前.

Ray*_*and 5

名称上的线性键和大索引会减慢速度。

每次插入都需要计算 LINEAR KEY。 http://dev.mysql.com/doc/refman/5.1/en/partitioning-线性-hash.html

您能否向我们展示一些 file_to_process.csv 的示例数据,也许应该构建更好的模式。

编辑看得更仔细

INSERT INTO items (name, key, busy, created_at, updated_at) 
(
    SELECT temp_items.name, temp_items.key, temp_items.busy, temp_items.created_at, temp_items.updated_at 
    FROM temp_items
) 
Run Code Online (Sandbox Code Playgroud)

这将可能创建一个磁盘临时表,这是非常非常慢的,所以你不应该使用它来获得更多性能,或者也许你应该检查一些 mysql 配置设置,比如 tmp-table-size 和 max-heap-table-size 也许这些配置错误。


JAR*_*JAR 5

您可以使用以下方法来加速插入:

  1. 如果您同时从同一客户端插入多行,请使用带有多个 VALUES 列表的 INSERT 语句一次插入多行。这比使用单独的单行 INSERT 语句快得多(在某些情况下快很多倍)。如果要将数据添加到非空表,则可以调整 bulk_insert_buffer_size 变量以加快数据插入速度。

  2. 从文本文件加载表时,请使用 LOAD DATA INFILE。这通常比使用 INSERT 语句快 20 倍。

  3. 利用列具有默认值的事实。仅当要插入的值与默认值不同时才显式插入值。这减少了 MySQL 必须做的解析并提高了插入速度。

参考:MySQL.com:8.2.4.1 优化 INSERT 语句