使用熊猫的欧几里德距离矩阵

Aba*_*cus 4 python dataframe pandas

我有一个.csv文件,其中包含以下格式的城市,纬度和经度数据:

CITY|LATITUDE|LONGITUDE
A|40.745392|-73.978364
B|42.562786|-114.460503
C|37.227928|-77.401924
D|41.245708|-75.881241
E|41.308273|-72.927887
Run Code Online (Sandbox Code Playgroud)

我需要以下面的格式创建一个距离矩阵(请忽略虚拟值):

         A         B         C         D         E   
A  0.000000  6.000000  5.744563  6.082763  5.656854  
B  6.000000  0.000000  6.082763  5.385165  5.477226  
C  1.744563  6.082763  0.000000  6.000000  5.385165
D  6.082763  5.385165  6.000000  0.000000  5.385165  
E  5.656854  5.477226  5.385165  5.385165  0.000000  
Run Code Online (Sandbox Code Playgroud)

我已将数据加载到pandas数据框中,并创建了一个交叉连接,如下所示:

import pandas as pd
df_A = pd.read_csv('lat_lon.csv', delimiter='|', encoding="utf-8-sig")
df_B = df_A
df_A['key'] = 1
df_B['key'] = 1 
df_C = pd.merge(df_A, df_B, on='key')  
Run Code Online (Sandbox Code Playgroud)
  • 你能帮我创建一下上面的矩阵结构吗?
  • 另外,是否可以避免涉及交叉连接的步骤?

Max*_*axU 10

您可以使用pdistsquareform从方法scipy.spatial.distance:

In [12]: df
Out[12]:
  CITY   LATITUDE   LONGITUDE
0    A  40.745392  -73.978364
1    B  42.562786 -114.460503
2    C  37.227928  -77.401924
3    D  41.245708  -75.881241
4    E  41.308273  -72.927887

In [13]: from scipy.spatial.distance import squareform, pdist

In [14]: pd.DataFrame(squareform(pdist(df.iloc[:, 1:])), columns=df.CITY.unique(), index=df.CITY.unique())
Out[14]:
           A          B          C          D          E
A   0.000000  40.522913   4.908494   1.967551   1.191779
B  40.522913   0.000000  37.440606  38.601738  41.551558
C   4.908494  37.440606   0.000000   4.295932   6.055264
D   1.967551  38.601738   4.295932   0.000000   2.954017
E   1.191779  41.551558   6.055264   2.954017   0.000000
Run Code Online (Sandbox Code Playgroud)

  • 我从未使用过 `pdist`,但根据文档,它使用 2d 欧几里得范数,这要求坐标在平面上并具有距离单位,这两者对于经度和纬度值均不正确。 (2认同)
  • @ StefanS,OP希望具有“欧几里得距离”-定义得很好,是pdist中的默认方法,如果您或OP希望使用另一种方法(minkowski,cityblock,seuclidean,squeuclidean,余弦,相关性,海明,雅卡) ,chebyshev,堪培拉等-共有22种不同的指标),您只需将其指定为`metric`参数即可 (2认同)