你可以在另一个数据帧中嵌套一个 Spark 数据帧吗？

Question

你可以在另一个数据帧中嵌套一个 Spark 数据帧吗？

prk*_*prk 3 dataframe apache-spark apache-spark-sql pyspark pyspark-sql

在 spark 中，我希望能够并行处理多个数据帧。

我正在尝试的方法是将数据帧嵌套在父数据帧中，但我不确定语法或是否可能。

例如，我有以下 2 个数据帧：df1：

+-----------+---------+--------------------+------+
|id         |asset_id |                date|  text|
+-----------+---------+--------------------+------+
|20160629025|       A1|2016-06-30 11:41:...|aaa...|
|20160423007|       A1|2016-04-23 19:40:...|bbb...|
|20160312012|       A2|2016-03-12 19:41:...|ccc...|
|20160617006|       A2|2016-06-17 10:36:...|ddd...|
|20160624001|       A2|2016-06-24 04:39:...|eee...|

Run Code Online (Sandbox Code Playgroud)

df2：

+--------+--------------------+--------------+
|asset_id|      best_date_time|  Other_fields|
+--------+--------------------+--------------+
|      A1|2016-09-28 11:33:...|           abc|
|      A1|2016-06-24 00:00:...|           edf|
|      A1|2016-08-12 00:00:...|           hij|
|      A2|2016-07-01 00:00:...|           klm|
|      A2|2016-07-10 00:00:...|           nop|

Run Code Online (Sandbox Code Playgroud)

所以我想结合这些来制作这样的东西。

+--------+--------------------+-------------------+
|asset_id|                 df1|                df2|
+--------+--------------------+-------------------+
|      A1| [df1 - rows for A1]|[df2 - rows for A1]|
|      A2| [df1 - rows for A2]|[df2 - rows for A2]|

Run Code Online (Sandbox Code Playgroud)

请注意，我不想加入或联合它们，因为这会非常稀疏（我实际上有大约 30 个数据帧和数千个资产，每个资产都有数千行）。

然后我计划在这个上做一个 groupByKey ，这样我就可以得到这样的东西，我可以在上面调用一个函数：

[('A1', <pyspark.resultiterable.ResultIterable object at 0x2534310>), ('A2', <pyspark.resultiterable.ResultIterable object at 0x25d2310>)]

Run Code Online (Sandbox Code Playgroud)

我是新来的火花所以非常感谢任何帮助。

Answer 1

zer*_*323 5

TL;DR无法嵌套，DataFrames但可以使用复杂类型。

在这种情况下，您可以例如（Spark 2.0 或更高版本）：

from pyspark.sql.functions import collect_list, struct

df1_grouped = (df1
    .groupBy("asset_id")
    .agg(collect_list(struct("id", "date", "text"))))

df2_grouped = (df2
    .groupBy("asset_id")
    .agg(collect_list(struct("best_date_time", "Other_fields"))))

df1_grouped.join(df2_grouped, ["asset_id"], "fullouter")

Run Code Online (Sandbox Code Playgroud)

但你必须意识到：

这是相当昂贵的。
它的应用有限。一般来说，嵌套结构使用起来很麻烦，并且需要复杂且昂贵的（尤其是在 PySpark 中）UDF。

归档时间：	8 年，10 月前
查看次数：	504 次
最近记录：	6 年，11 月前