Gid*_*eon 5 performance join apache-spark apache-spark-sql
我有一个 Spark 程序,它读取一个相对较大的数据帧(~3.2 TB),其中包含 2 列:id、name 和另一个相对较小的数据帧(~20k 条目),其中包含单个列:id
我想做的是从大数据框中获取 id 和名称(如果它们出现在小数据框中)
我想知道什么是有效的解决方案来使其正常工作,为什么?我想到的几个选择:
还有我在这里没有提到的其他选项吗?
如果有人也能解释为什么特定解决方案比其他解决方案更有效,我将不胜感激
提前致谢