Dim*_*los 2 python matrix apache-spark pyspark
Spark的文档,用于创建一个pyspark.ml.linalg.SparseMatrix说:
Column-major sparse matrix. The entry values are stored in Compressed
Sparse Column (CSC) format. For example, the following matrix
1.0 0.0 4.0
0.0 3.0 5.0
2.0 0.0 6.0
is stored as values: [1.0, 2.0, 3.0, 4.0, 5.0, 6.0],
rowIndices=[0, 2, 1, 0, 1, 2],
colPointers=[0, 2, 3, 6]
Run Code Online (Sandbox Code Playgroud)
你能解释一下我们是如何得出的colPointers吗?它表示它们代表了对应于新列开头的索引,但我仍然无法绕过它.
使用矩阵中的字母可以更轻松地阅读:
a 0 d
0 c e
b 0 f
Run Code Online (Sandbox Code Playgroud)
存储为
values: [a, b, c, d, e, f],
rowIndices= [0, 2, 1, 0, 1, 2],
colPointers= [0, 2, 3, 6]
Run Code Online (Sandbox Code Playgroud)
values 是你矩阵的非空值rowIndices将值映射values到矩阵中的行indice:即a存储在第0行; b存储在第2行中,c存储在第1行... valuescolPointers拆分values成列:
values索引2 处拆分)a并且b属于同一个第一列,values索引3 处拆分)c在第二列中单独存在,values索引6 处拆分)d,e并且f属于相同的第三列.请注意,第一个值ColPointers是allway 0,其最后一个值是all值的值values
| 归档时间: |
|
| 查看次数: |
455 次 |
| 最近记录: |