MySQL:411M 行的平均查询速度缓慢

mat*_*ali 4 mysql sql average database-performance

我有一个简单的表(由 django 创建)-引擎 InnoDB:

+-------------+------------------+------+-----+---------+----------------+
| Field       | Type             | Null | Key | Default | Extra          |
+-------------+------------------+------+-----+---------+----------------+
| id          | int(11)          | NO   | PRI | NULL    | auto_increment |
| correlation | double           | NO   |     | NULL    |                |
| gene1_id    | int(10) unsigned | NO   | MUL | NULL    |                |
| gene2_id    | int(10) unsigned | NO   | MUL | NULL    |                |
+-------------+------------------+------+-----+---------+----------------+
Run Code Online (Sandbox Code Playgroud)

该表有超过4.11 亿行。(目标表将有大约461M行,21471*21470行)

我的主要查询如下所示,最多可能指定 10 个基因。

 SELECT gene1_id, AVG(correlation) AS avg FROM genescorrelation 
 WHERE gene2_id IN (176829, 176519, 176230) 
 GROUP BY gene1_id ORDER BY NULL 
Run Code Online (Sandbox Code Playgroud)

这个查询非常慢,几乎需要 2 分钟才能运行:

21471 rows in set (1 min 11.03 sec)
Run Code Online (Sandbox Code Playgroud)

索引(基数看起来很奇怪 - 太小?):

  Non_unique| Key_name                                         | Seq_in_index | Column_name | Collation | Cardinality |
          0 | PRIMARY                                          |            1 | id          | A         |   411512194 | 
          1 | c_gene1_id_6b1d81605661118_fk_genes_gene_entrez  |            1 | gene1_id    | A         |          18 |
          1 | c_gene2_id_2d0044eaa6fd8c0f_fk_genes_gene_entrez |            1 | gene2_id    | A         |          18 | 
Run Code Online (Sandbox Code Playgroud)

我只是在该表上运行 select count(*) ,花了 22 分钟:

select count(*) from predictions_genescorrelation;

+-----------+
| count(*)  |
+-----------+
| 411512002 |
+-----------+
1 row in set (22 min 45.05 sec)
Run Code Online (Sandbox Code Playgroud)

可能出什么问题了?我怀疑mysql配置没设置好。

在导入数据的过程中,我遇到了空间问题,因此这也可能影响数据库,尽管我check table 后来运行了 - 花了 2 小时并表示 OK。

此外 - 索引的基数看起来很奇怪。我在本地设置了较小的数据库,并且值完全不同(254945589,56528,17)。

我应该重做索引吗?我应该检查 MySQL 的哪些参数?我的表设置为 InnoDB,MyISAM 有什么区别吗?

谢谢,马塔利

M0r*_*iis 5

https://www.percona.com/blog/2006/12/01/count-for-innodb-tables/

SELECT COUNT(*)WHERE如果没有子句或没有SELECT COUNT(id)...,查询非常慢USE INDEX (PRIMARY)

为了加速这个:

 SELECT gene1_id, AVG(correlation) AS avg FROM genescorrelation 
 WHERE gene2_id IN (176829, 176519, 176230) 
 GROUP BY gene1_id ORDER BY NULL
Run Code Online (Sandbox Code Playgroud)

您应该按顺序在(gene2_id,gene1_id,相关性)上有复合键。尝试

关于索引基数:Innodb 表的统计数据是近似的,不准确(有时是疯狂的)。甚至还有(是?)错误报告https://bugs.mysql.com/bug.php?id=58382

尝试再次分析表并观察基数