小编Ben*_*zar的帖子

Collect() 调用用于 UDF 函数，该函数返回相当大的列（总共 2 列）以避免 crossJoin

问题如下：

'genre', 'top_tags' (250 rows)
----------------
Action, Array('bleeding', 'dying', 'guns', ...) - can hold up to 50k max. (avg is 4000)
Drama,  Array('crying', 'hard life', 'street')

Run Code Online (Sandbox Code Playgroud)

另一个表格包含电影、类型及其相关标签

'movie', 'genre', 'tags'. (DataFrame size, around 23M Rows)
------------------------
M1        Action,  'guns', 'dying', 'bleeding', 'outside', 'worldwide'.  approx ~10 records for each movie

Run Code Online (Sandbox Code Playgroud)

我想迭代每部电影，并尝试通过比较标签来扩展其类型相似性。 没有模糊算法，只是精确匹配。

我想返回一个数据帧（相同的电影、流派、标签数据帧），其中包含名为的新列potentially_related_genres和流派列表。

在我看来，我有两个选择：