在 MYSQL 中实现“最近邻居”搜索的 kd 树?

Mik*_*der 5 mysql sql kdtree nearest-neighbor multidimensional-array

我正在为外汇市场设计一个自动交易软件。在 MYSQL 数据库中,我有多年的市场数据,每隔五分钟一次。除了价格和时间之外,我还有 4 个不同的数据指标。

[Time|Price|M1|M2|M3|M4] 
x ~400,0000
Run Code Online (Sandbox Code Playgroud)

Time是主键,M1贯穿M4是不同的指标(例如标准差或移动平均线的斜率)。

这是一个真实的例子(摘录:)

+------------+--------+-----------+--------+-----------+-----------+
|  Time      | Price  |     M1    |   M2   |    M3     |     M4    |
+------------+--------+-----------+--------+-----------+-----------+
| 1105410300 | 1.3101 |   12.9132 | 0.4647 |   29.6703 |        50 |
| 1105410600 | 1.3103 |    14.056 | 0.5305 | 29.230801 |        50 |
| 1105410900 | 1.3105 |   15.3613 | 0.5722 |   26.8132 |        25 |
| 1105411200 | 1.3106 | 16.627501 | 0.4433 | 24.395599 |  26.47059 |
| 1105411500 | 1.3112 |   18.7843 | 1.0019 | 24.505501 |    34.375 |
| 1105411800 | 1.3111 |   19.8375 | 0.5626 |        20 |   32.8125 |
| 1105412100 | 1.3105 |   20.0168 | 0.6718 |    9.7802 |   23.4375 |
| 1105412400 | 1.3105 |   20.4538 | 0.8943 |     7.033 |   23.4375 |
| 1105412700 | 1.3109 |   21.6078 | 0.4902 |   11.7582 |   29.6875 |
| 1105413000 | 1.3104 |   21.2045 |  1.565 |    8.6813 |    21.875 |
+------------+--------+-----------+--------+-----------+-----------+...400k more
Run Code Online (Sandbox Code Playgroud)

给定输入M1M2M3、 ,M4我希望(快速且准确地)找到 5,000 个最接近的匹配项。

输入示例:

+------------+--------+-----------+--------+-----------+-----------+
|  Time      | Price  |     M1    |   M2   |    M3     |     M4    |
+------------+--------+-----------+--------+-----------+-----------+
| 1205413000 | 1.4212 |   20.1045 | 1.0012 |    9.1013 |    11.575 |
+------------+--------+-----------+--------+-----------+-----------+
Run Code Online (Sandbox Code Playgroud)

我认为这些指标中的每一个都可以被视为一个“维度”,并且我可以nearest neighbor search在这个多维空间中找到最接近的数据点。

似乎最简单的方法是迭代每个数据点并测量到输入点的多维距离;但速度至关重要!

我读到了有关K-D Trees用于此目的的东西。谁能解释一下或者给我提供一些材料来解释如何在 MYSQL 中实现这一点?

可能需要提到的是,我可以预处理表格,但输入是实时接收的。

目前,我只是独立地围绕每个维度上的数据进行粗略聚类:

INSERT INTO Dim1 SELECT * FROM myTable AS myTable USE INDEX(M1) WHERE myTable.M1 < currentM1 ORDER BY M1 DESC LIMIT 2500;
INSERT INTO Dim1 SELECT * FROM myTable AS myTable USE INDEX(M1) WHERE myTable.M1 > currentM1 ORDER BY M1  ASC LIMIT 2500;

INSERT INTO Dim2 SELECT * FROM myTable AS myTable USE INDEX(M2) WHERE myTable.M2 < currentM2 ORDER BY M2 DESC LIMIT 2500;
INSERT INTO Dim2 SELECT * FROM myTable AS myTable USE INDEX(M2) WHERE myTable.M2 > currentM2 ORDER BY M2  ASC LIMIT 2500;

INSERT INTO Dim3 SELECT * FROM myTable AS myTable USE INDEX(M3) WHERE myTable.M3 < currentM3 ORDER BY M3 DESC LIMIT 2500;
INSERT INTO Dim3 SELECT * FROM myTable AS myTable USE INDEX(M3) WHERE myTable.M3 > currentM3 ORDER BY M3  ASC LIMIT 2500;

INSERT INTO Dim4 SELECT * FROM myTable AS myTable USE INDEX(M4) WHERE myTable.M4 < currentM4 ORDER BY M4 DESC LIMIT 2500;
INSERT INTO Dim4 SELECT * FROM myTable AS myTable USE INDEX(M4) WHERE myTable.M4 > currentM4 ORDER BY M4  ASC LIMIT 2500;
Run Code Online (Sandbox Code Playgroud)

重要的是要明白,我对排名的距离感兴趣,而不是价值。

编辑:我更接近于理解如何做到这一点(我认为):我需要预处理每个指标的每一行并为其分配一个percentile代表其在其范围内的位置(百分比)的值。

例如,对于任何给定值M1

percentile = (#  rows with values less than input)/(# total rows) 
Run Code Online (Sandbox Code Playgroud)

如果我计算输入的百分位数并将用于最近邻搜索而不是实际值,我将有效地缩放各种指标,以便它们可以用作维度。

但我仍然不知道如何进行实际搜索。这是否有可能在 MySQL 中有效地完成?

jsw*_*f19 0

您应该能够执行如下查询:

SELECT * FROM myTable
WHERE M1 BETWEEN searchM1 - radiusM1 AND searchM1 + radiusM1
  AND M2 BETWEEN searchM2 - radiusM2 AND searchM2 + radiusM2
  AND M3 BETWEEN searchM3 - radiusM3 AND searchM3 + radiusM3
  AND M4 BETWEEN searchM4 - radiusM4 AND searchM4 + radiusM4
Run Code Online (Sandbox Code Playgroud)

radius当然,在球体的情况下,所有值都是相同的。然后调整半径,直到接近所需的记录数。我建议进行二分搜索

我不确定你是否想扰乱分布,但假设你这样做,你只需要给每个搜索值一个介于表中两个值之间的排名(例如,如果排名 5 是 5.5 ,排名 6 为 5.9,搜索值为 5.6,则搜索排名可能为 5.5)