如何在python pandas中实现左外连接?

mar*_*pav 4 python pandas

我一直在尝试在python中实现左外连接。我看到左连接和左外连接之间存在细微差别。

如此链接所示:SQL Server 中的 LEFT JOIN 与 LEFT OUTER JOIN

我可以通过以下示例来了解以下内容:

import pandas as pd
import numpy as np

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
'value1': np.random.randn(4)})

df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
 'value2': np.random.randn(4)})

df3 = df1.merge(df2, on=['key'], how='left')
Run Code Online (Sandbox Code Playgroud)

这总共给出了来自 df1 的记录(包括相交的记录)

但是我如何做只有来自 df1 而不在 df2 中的记录的左外连接?

不是:这只是示例。我可能在任一数据框中都有大量列(不同)。

请帮忙。

EdC*_*ica 7

设置 param indicator=True,这将添加一列_merge,然后您只过滤以下行left_only

In [46]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
'value1': np.random.randn(4)})
?
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
 'value2': np.random.randn(4)})
?
df3 = df1.merge(df2, on=['key'], how='left', indicator=True)
df3

Out[46]:
  key    value1    value2     _merge
0   A -0.346861       NaN  left_only
1   B  1.120739  0.558272       both
2   C  0.023881       NaN  left_only
3   D -0.598771 -0.823035       both
4   D -0.598771  0.369423       both

In [48]:
df3[df3['_merge'] == 'left_only']

Out[48]:
  key    value1  value2     _merge
0   A -0.346861     NaN  left_only
2   C  0.023881     NaN  left_only
Run Code Online (Sandbox Code Playgroud)

如果在旧版本上,则使用isinwith~来否定掩码:

In [50]:
df3[~df3['key'].isin(df2['key'])]

Out[50]:
  key    value1  value2
0   A -0.346861     NaN
2   C  0.023881     NaN
Run Code Online (Sandbox Code Playgroud)