python Pandas库包含以下函数:
DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False,
right_index=False, sort=False, suffixes=('_x', '_y'), copy=True,
indicator=False)
Run Code Online (Sandbox Code Playgroud)
结合Panda的value_counts()函数的指标字段可用于快速确定连接的执行情况.
例:
In [48]: df1 = pd.DataFrame({'col1': [0, 1], 'col_left':['a', 'b']})
In [49]: df2 = pd.DataFrame({'col1': [1, 2, 2],'col_right':[2, 2, 2]})
In [50]: pd.merge(df1, df2, on='col1', how='outer', indicator=True)
Out[50]:
col1 col_left col_right _merge
0 0 a NaN left_only
1 1 b 2.0 both
2 2 NaN 2.0 right_only
3 2 NaN 2.0 right_only
Run Code Online (Sandbox Code Playgroud)
在Spark Dataframe中检查连接性能的最佳方法是什么?
在其中一个答案中提供了一个自定义函数:它还没有给出正确的结果,但如果它会:
ASchema = StructType([StructField('id', IntegerType(),nullable=False),
StructField('name', StringType(),nullable=False)])
BSchema = StructType([StructField('id', IntegerType(),nullable=False), …
Run Code Online (Sandbox Code Playgroud)