我一直在尝试在python中实现左外连接。我看到左连接和左外连接之间存在细微差别。
如此链接所示:SQL Server 中的 LEFT JOIN 与 LEFT OUTER JOIN
我可以通过以下示例来了解以下内容:
import pandas as pd
import numpy as np
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
'value1': np.random.randn(4)})
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
'value2': np.random.randn(4)})
df3 = df1.merge(df2, on=['key'], how='left')
Run Code Online (Sandbox Code Playgroud)
这总共给出了来自 df1 的记录(包括相交的记录)
但是我如何做只有来自 df1 而不在 df2 中的记录的左外连接?
不是:这只是示例。我可能在任一数据框中都有大量列(不同)。
请帮忙。
设置 param indicator=True,这将添加一列_merge,然后您只过滤以下行left_only:
In [46]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
'value1': np.random.randn(4)})
?
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
'value2': np.random.randn(4)})
?
df3 = df1.merge(df2, on=['key'], how='left', indicator=True)
df3
Out[46]:
key value1 value2 _merge
0 A -0.346861 NaN left_only
1 B 1.120739 0.558272 both
2 C 0.023881 NaN left_only
3 D -0.598771 -0.823035 both
4 D -0.598771 0.369423 both
In [48]:
df3[df3['_merge'] == 'left_only']
Out[48]:
key value1 value2 _merge
0 A -0.346861 NaN left_only
2 C 0.023881 NaN left_only
Run Code Online (Sandbox Code Playgroud)
如果在旧版本上,则使用isinwith~来否定掩码:
In [50]:
df3[~df3['key'].isin(df2['key'])]
Out[50]:
key value1 value2
0 A -0.346861 NaN
2 C 0.023881 NaN
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
10238 次 |
| 最近记录: |