PySpark 数据框：在自连接后处理重复的列名

Question

PySpark 数据框：在自连接后处理重复的列名

我有一个这样的数据框（受到这个问题的启发，设置略有不同）：

df3 = hive_context.createDataFrame([
    Row(a=107831, f=3),
    Row(a=107531, f=2),
    Row(a=125231, f=2)
])

Run Code Online (Sandbox Code Playgroud)

基于此，我创建了两个新对象。每个都是原始数据帧的子集：

from pyspark.sql.functions import col

df1 = (df3
  .filter(((col('a') == 107831) & (col('f') == 3))|
          ((col('a') == 125231) & (col('f') == 2))))

df2 = (df3
  .filter(((col('a') == 107831) & (col('f') == 3))|
          ((col('a') == 107531) & (col('f') == 2))))

Run Code Online (Sandbox Code Playgroud)

然后，我想加入这两个数据集并f从每个数据集获取列，如下所示：

a = (df1
  .join(df2, (df1['a'] == df2['a']), how = 'full')
  .select(df1['f'], df2['f']).collect())

Run Code Online (Sandbox Code Playgroud)

但是，我得到 [Row(f=None, f=None), Row(f=2, f=2), Row(f=3, f=3)]

而不是所需的[Row(f=3, f=4), Row(f=None, f=2), Row(f=2, f=None)]或表示为表格：

+------+----+------+----+
|     a|   f|     a|   f|
+------+----+------+----+
|107831|   3|107831|   4|
|  null|null|107531|   2|
|125231|   2|  null|null|
+------+----+------+----+

Run Code Online (Sandbox Code Playgroud)

有谁知道如何解决这个问题？我是否必须将 df1 和 df2 存储在某处？

当我按照上面链接的问题运行场景时，我得到了预期的结果：

df1 = hive_context.createDataFrame([
    Row(a=107831, f=3),
    Row(a=125231, f=2),
])

df2 = hive_context.createDataFrame([
    Row(a=107831, f=4),
    Row(a=107531, f=2),
])

a = df1.join(df2, (df1['a'] == df2['a']), how = 'full').select(df1['f'], df2['f']).collect()
a

Run Code Online (Sandbox Code Playgroud)

我上运行，它python 3.6与spark 2.3

Answer 1

pau*_*ult 5

如果列名重复，请在 DataFrame 上使用别名以避免歧义：

a = df1.alias('l').join(df2.alias('r'), on='a', how = 'full').select('l.f', 'r.f').collect()
print(a)
#[Row(f=3, f=3), Row(f=None, f=2), Row(f=2, f=None)]

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，5 月前
查看次数：	767 次
最近记录：	7 年，5 月前