我有一个数据框,我想new_col=max(some_column0)为由其他 column1 分组的每一行添加:
maxs = df0.groupBy("catalog").agg(max("row_num").alias("max_num")).withColumnRenamed("catalog", "catalogid")
df0.join(maxs, df0.catalog == maxs.catalogid).take(4)
Run Code Online (Sandbox Code Playgroud)
在第二个字符串中,我收到一个错误:
AnalysisException: u'检测到逻辑计划之间的 INNER 连接的笛卡尔积\nProject ...使用 CROSS JOIN 语法允许这些关系之间的笛卡尔积。;'
我不明白的是:为什么 spark 在这里找到笛卡尔积?
获得此错误的一种可能方法:我将 DF 保存到 Hive 表,然后再次初始化 DF 作为从表中选择。或者用 hive 查询替换这 2 个字符串 - 无论如何。但我不想保存DF。