小编mno*_*nos的帖子

Spark Dataframe是否具有Panda合并指标的等效选项?

python Pandas库包含以下函数:

DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False,
                right_index=False, sort=False, suffixes=('_x', '_y'), copy=True,
                indicator=False)
Run Code Online (Sandbox Code Playgroud)

结合Panda的value_counts()函数的指标字段可用于快速确定连接的执行情况.

例:

In [48]: df1 = pd.DataFrame({'col1': [0, 1], 'col_left':['a', 'b']})

In [49]: df2 = pd.DataFrame({'col1': [1, 2, 2],'col_right':[2, 2, 2]})

In [50]: pd.merge(df1, df2, on='col1', how='outer', indicator=True)
Out[50]: 
   col1 col_left  col_right      _merge
0     0        a        NaN   left_only
1     1        b        2.0        both
2     2      NaN        2.0  right_only
3     2      NaN        2.0  right_only
Run Code Online (Sandbox Code Playgroud)

在Spark Dataframe中检查连接性能的最佳方法是什么?

在其中一个答案中提供了一个自定义函数:它还没有给出正确的结果,但如果它会:

ASchema = StructType([StructField('id', IntegerType(),nullable=False),
                 StructField('name', StringType(),nullable=False)])
BSchema = StructType([StructField('id', IntegerType(),nullable=False), …
Run Code Online (Sandbox Code Playgroud)

python pandas pyspark spark-dataframe

4
推荐指数
2
解决办法
1418
查看次数

标签 统计

pandas ×1

pyspark ×1

python ×1

spark-dataframe ×1