高效加载CSV坐标格式(COO)输入到局部矩阵火花

Question

高效加载CSV坐标格式(COO)输入到局部矩阵火花

Ard*_*eti 7 scala matrix sparse-matrix apache-spark apache-spark-ml

我想将CSV坐标格式(COO)数据转换为局部矩阵.目前我首先将它们CoordinateMatrix转换为然后转换为LocalMatrix.但是有更好的方法吗？

示例数据:

0,5,5.486978435
0,3,0.438472867
0,0,6.128832321
0,7,5.295923198
0,1,7.738270234

Run Code Online (Sandbox Code Playgroud)

码:

var loadG = sqlContext.read.option("header", "false").csv("file.csv").rdd.map("mapfunctionCreatingMatrixEntryOutOfRow")
var G = new CoordinateMatrix(loadG)

var matrixG = G.toBlockMatrix().toLocalMatrix()

Run Code Online (Sandbox Code Playgroud)

Answer 1

Sha*_*ica 1

ALocalMatrix将存储在一台机器上，因此无法利用 Spark 的优势。换句话说，使用 Spark 似乎有点浪费，尽管仍然可行。

将 CSV 文件获取到 a 的最简单方法LocalMatrix是首先使用 Scala 读取 CSV，而不是 Spark：

val entries = Source.fromFile("data.csv").getLines()
  .map(_.split(","))
  .map(a => (a(0).toInt, a(1).toInt, a(2).toDouble))
  .toSeq

Run Code Online (Sandbox Code Playgroud)

SparseMatrix的变体具有LocalMatrix读取 COO 格式数据的方法。需要指定行数和列数才能使用它。由于矩阵是稀疏的，因此在大多数情况下应该手动完成，但可以按如下方式获得数据中的最高值：

val numRows = entries.map(_._1).max + 1
val numCols = entries.map(_._2).max + 1

Run Code Online (Sandbox Code Playgroud)

然后创建矩阵：

val matrixG = SparseMatrix.fromCOO(numRows, numCols, entries)

Run Code Online (Sandbox Code Playgroud)

该矩阵将以 CSC 格式存储在机器上。打印上面的示例输入将产生以下输出：

1 x 8 CSCMatrix
(0,0) 6.128832321
(0,1) 7.738270234
(0,3) 0.438472867
(0,5) 5.486978435
(0,7) 5.295923198

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年前
查看次数：	388 次
最近记录：	8 年前