我想在 HiveContext 中使用 PySpark 应用 SCD1 和 SCD2。在我的方法中,我正在读取增量数据和目标表。阅读后,我将加入他们的更新插入方法。我正在对所有源数据帧进行 registerTempTable。我正在尝试将最终数据集写入目标表,但面临着在从中读取的表中不可能插入覆盖的问题。
请为此提出一些解决方案。我不想将中间数据写入物理表并再次读取它。
是否有任何属性或方法可以存储最终数据集而不保留对其读取的表的依赖性。这样,就有可能覆盖该表。
请建议。
hive apache-spark pyspark hivecontext
apache-spark ×1
hive ×1
hivecontext ×1
pyspark ×1