我有一个myTable有3列的表.col_1是一个INTEGER和另外两列是DOUBLE.例如,col_1={1, 2}, col_2={0.1, 0.2, 0.3}.in中的每个元素col_1都包含所有值,col_2并且col_2每个元素都有重复的值col_1.第3列可以具有任何值,如下所示:
col_1 | col_2 | Value
----------------------
1 | 0.1 | 1.0
1 | 0.2 | 2.0
1 | 0.2 | 3.0
1 | 0.3 | 4.0
1 | 0.3 | 5.0
2 | 0.1 | 6.0
2 | 0.1 | 7.0
2 | 0.1 | 8.0
2 | 0.2 | 9.0
2 | 0.3 | 10.0
Run Code Online (Sandbox Code Playgroud)
我想要的是 …
我正在测试每个执行器(--executor-cores)的不同核心数对Spark上SVD的运行时间的影响.在--executor-cores固定的情况下,主数据RDD的分区数量是变化的.但是,--executor-cores对于给定数量的RDD分区,对于不同的SVD计算时间似乎没有显着变化.这有点令人困惑.
我的环境是:
Standaloneclient我已经绘制了结果,--executor-cores = [4, 16]并且可以看出,对于给定的分区大小,分区大小增加时的计算时间之间没有太大差异.所以我的问题是: