我的 csv 文件中的每一行的结构如下:
u001, 2013-11, 0, 1, 2, ... , 99
Run Code Online (Sandbox Code Playgroud)
其中U001和2013-11是UID和日期,从数字0到99是数据值。我想以这种结构将此 csv 文件加载到 Spark DataFrame 中:
+-------+-------------+-----------------+
| uid| date| dataVector|
+-------+-------------+-----------------+
| u001| 2013-11| [0,1,...,98,99]|
| u002| 2013-11| [1,2,...,99,100]|
+-------+-------------+-----------------+
root
|-- uid: string (nullable = true)
|-- date: string (nullable = true)
|-- dataVecotr: array (nullable = true)
| |-- element: integer (containsNull = true)
Run Code Online (Sandbox Code Playgroud)
其中 dataVector 是Array[Int],并且所有 UID 和日期的dataVector长度都相同。我尝试了几种方法来解决这个问题,包括
使用shema
val attributes = Array("uid", …Run Code Online (Sandbox Code Playgroud)