在Spark中为具有1500列的表定义DataFrame模式

Question

我在SQL Server中有大约1500列的表。我需要从该表中读取数据，然后将其转换为正确的数据类型格式，然后将记录插入Oracle DB。

为表中包含1500多个列的这种类型的表定义架构的最佳方法是什么。除了对列名和数据类型进行硬编码之外，还有其他选择吗？

使用的Spark版本为1.4

Answer 1

对于这种类型的要求。我会提供case类方法来准备数据框

是的，有一些局限性，例如生产率，但我们可以克服...您可以像<版本2.11的以下示例所示进行操作：

准备一个案例类extends Product并覆盖方法。

喜欢...

productArity():Int:这将返回属性的大小。在我们的例子中，它是33。因此，我们的实现如下所示：
productElement(n:Int):Any:给定一个索引，这将返回属性。作为保护，我们还有一个默认情况，该情况会引发IndexOutOfBoundsException异常：
canEqual (that:Any):Boolean：这是三个函数中的最后一个，当对类进行相等检查时，它作为边界条件：

使用StructType定义架构并创建数据框。（如果您不想使用spark csv api）