小编ago*_*zed的帖子

如何使用 Array[Int] 将 csv 文件加载到 Spark DataFrame 中

我的 csv 文件中的每一行的结构如下:

u001, 2013-11, 0, 1, 2, ... , 99
Run Code Online (Sandbox Code Playgroud)

其中U0012013-11是UID和日期,从数字099是数据值。我想以这种结构将此 csv 文件加载到 Spark DataFrame 中:

+-------+-------------+-----------------+
|    uid|         date|       dataVector|
+-------+-------------+-----------------+
|   u001|      2013-11|  [0,1,...,98,99]|
|   u002|      2013-11| [1,2,...,99,100]|
+-------+-------------+-----------------+

root
 |-- uid: string (nullable = true)
 |-- date: string (nullable = true)
 |-- dataVecotr: array (nullable = true)
 |    |-- element: integer (containsNull = true)
Run Code Online (Sandbox Code Playgroud)

其中 dataVector 是Array[Int],并且所有 UID 和日期的dataVector长度都相同。我尝试了几种方法来解决这个问题,包括

  1. 使用shema

    val attributes = Array("uid", …
    Run Code Online (Sandbox Code Playgroud)

csv scala apache-spark

5
推荐指数
1
解决办法
1681
查看次数

标签 统计

apache-spark ×1

csv ×1

scala ×1