我有一个myTable
有3列的表.col_1
是一个INTEGER
和另外两列是DOUBLE
.例如,col_1={1, 2}, col_2={0.1, 0.2, 0.3}
.in中的每个元素col_1
都包含所有值,col_2
并且col_2
每个元素都有重复的值col_1
.第3列可以具有任何值,如下所示:
col_1 | col_2 | Value
----------------------
1 | 0.1 | 1.0
1 | 0.2 | 2.0
1 | 0.2 | 3.0
1 | 0.3 | 4.0
1 | 0.3 | 5.0
2 | 0.1 | 6.0
2 | 0.1 | 7.0
2 | 0.1 | 8.0
2 | 0.2 | 9.0
2 | 0.3 | 10.0
Run Code Online (Sandbox Code Playgroud)
我想要的是 …
我正在测试每个执行器(--executor-cores
)的不同核心数对Spark上SVD的运行时间的影响.在--executor-cores
固定的情况下,主数据RDD的分区数量是变化的.但是,--executor-cores
对于给定数量的RDD分区,对于不同的SVD计算时间似乎没有显着变化.这有点令人困惑.
我的环境是:
Standalone
client
我已经绘制了结果,--executor-cores = [4, 16]
并且可以看出,对于给定的分区大小,分区大小增加时的计算时间之间没有太大差异.所以我的问题是: