use*_*586 6 mysql database group-by sql-order-by mariadb
我曾多次被告知,相同的查询 MariaDB 将像在 MySQL 上一样工作......直到我遇到这个问题。
最近,我试图将一个应用程序从MySQL (InnoDB)克隆到MariaDB (XtraDB)。尽管 MariaDB 无需更改任何内容即可运行 MySQL 查询,但我惊讶地发现相同的查询在两个平台上的行为实际上完全不同,尤其是在ORDER BY和GROUP BY 中。
例如:
MyTable
=======
+----+----------+---------------------+-----------+
| id | parentId | creationDate | name |
+----+----------+---------------------+-----------+
| 1 | 2357 | 2017-01-01 06:03:40 | Anna |
+----+----------+---------------------+-----------+
| 2 | 5480 | 2017-01-02 07:13:20 | Becky |
+----+----------+---------------------+-----------+
| 3 | 2357 | 2017-01-03 08:20:12 | Christina |
+----+----------+---------------------+-----------+
| 4 | 2357 | 2017-01-03 08:20:15 | Dorothy |
+----+----------+---------------------+-----------+
| 5 | 5480 | 2017-01-04 09:25:45 | Emma |
+----+----------+---------------------+-----------+
| 6 | 1168 | 2017-01-05 10:30:10 | Fiona |
+----+----------+---------------------+-----------+
| 7 | 5480 | 2017-01-05 10:33:23 | Gigi |
+----+----------+---------------------+-----------+
| 8 | 1168 | 2017-01-06 12:46:34 | Heidi |
+----+----------+---------------------+-----------+
| 9 | 1168 | 2017-01-06 12:46:34 | Irene |
+----+----------+---------------------+-----------+
| 10 | 2357 | 2017-01-07 14:58:37 | Jane |
+----+----------+---------------------+-----------+
| 11 | 2357 | 2017-01-07 14:58:37 | Katy |
+----+----------+---------------------+-----------+
Run Code Online (Sandbox Code Playgroud)
基本上我想从查询中得到的是来自每个 GROUPing (即)的最新记录parentId。最新的,我的意思是 MAX( creationDate) 和 MAX( id)
所以,对于上面的例子,由于只有三个不同的 parentId 值,我希望得到:
+----+----------+---------------------+-----------+
| id | parentId | creationDate | name |
+----+----------+---------------------+-----------+
| 11 | 2357 | 2017-01-07 14:58:37 | Katy |
+----+----------+---------------------+-----------+
| 9 | 1168 | 2017-01-06 12:46:34 | Irene |
+----+----------+---------------------+-----------+
| 7 | 5480 | 2017-01-05 10:33:23 | Gigi |
+----+----------+---------------------+-----------+
Run Code Online (Sandbox Code Playgroud)
最初,该应用程序具有类似于这种方式的查询:
SELECT * FROM
( SELECT * FROM `MyTable` WHERE `parentId` IN (...)
ORDER BY `creationDate` DESC, `id` DESC ) AS `t`
GROUP BY `parentId`;
Run Code Online (Sandbox Code Playgroud)
在MySQL 上,这是有效的,因为内部查询将排序,然后外部查询从内部查询的结果中获取每个 GROUP 的第一个。外部查询基本上遵循内部查询的顺序。
但是在MariaDB 上,外部查询将忽略内部查询结果的排序。我在 MariaDB 上得到了这个:
+----+----------+---------------------+-----------+
| id | parentId | creationDate | name |
+----+----------+---------------------+-----------+
| 1 | 2357 | 2017-01-01 06:03:40 | Anna |
+----+----------+---------------------+-----------+
| 2 | 5480 | 2017-01-02 07:13:20 | Becky |
+----+----------+---------------------+-----------+
| 6 | 1168 | 2017-01-05 10:30:10 | Fiona |
+----+----------+---------------------+-----------+
Run Code Online (Sandbox Code Playgroud)
为了在 MariaDB 上实现相同的行为,我想出了这样的方法。(虽然不确定这是否准确。)
SELECT `t1`.* FROM `MyTable` `t1` LEFT JOIN `MyTable` `t2` ON (
`t1`.`parentId` = `t2`.`parentId`
AND `t2`.`parentId` IN (...)
AND `t1`.`creationDate` <= `t2`.`creationDate`
AND `t1`.`id` < `t2`.`id`)
) WHERE `t2`.`id` IS NULL;
Run Code Online (Sandbox Code Playgroud)
现在的问题是......如果我要重写查询,我必须重写数百个......而且它们彼此之间有点不同。
我想知道这里是否有人有任何想法可以让我做出尽可能少的改变。
谢谢大家。
您的第一个查询可能会在 MySQL 中运行,但其行为没有记录:您正在分组,groupid但您正在选择带有 * 的非聚合列,并且任何这些非聚合列的值都是未定义的- 如果您获得的值是遇到的第一个值只是“运气问题”。
确实,即使它不能被认为是正确的,在 MySQL 上我从未见过这个“技巧”失败(这里在 stackoverflow 上有很多赞成的答案建议你使用这个技巧),但是 MariaDB 使用了不同的优化引擎并且您不能依赖 MySQL 未记录的行为。
您的第二个查询需要一些调整:
and (
`t1`.`creationDate` < `t2`.`creationDate`
or (
`t1`.`creationDate` = `t2`.`creationDate`
and `t1`.`id` < `t2`.`id`
)
)
Run Code Online (Sandbox Code Playgroud)
因为首先您按创建日期排序,然后如果多个记录共享相同的创建日期,您将获得 ID 最高的记录。
还有其他方法可以编写相同的查询,例如
select * from mytable
where id in (
select max(m.id)
from mytable m inner join (
select parentID, max(creationDate) as max_cd
from mytable
group by ParentID
) t on m.parentID = t.parentID and m.creationDate = t.max_cd
group by m.parentID, m.creationDate
)
Run Code Online (Sandbox Code Playgroud)
但每个查询都需要单独重写。
编辑
您的示例有点复杂,因为您同时按creationDate 和id 进行排序。让我更好地解释一下。首先要做的事情是,对于每个parentID,您必须获取最后的创建日期:
select parentID, max(creationDate) as max_cd
from MyTable
group by parentID
Run Code Online (Sandbox Code Playgroud)
那么对于每个最大的creationDate,你必须获得最高的id:
select t.parentID, t.max_cd, max(t.id) as max_id
from
MyTable t inner join (
select parentID, max(creationDate) as max_cd
from MyTable
group by parentID
) t1 on t.parentID = t1.parentID and t.creationDate = t1.max_cd
group t.parentID, t.max_cd
Run Code Online (Sandbox Code Playgroud)
那么你必须获取此查询返回 id 的所有记录。在这种特定的上下文中,与表本身的 LEFT JOIN 应该更容易编写并且性能更高。