Spark 集群由一个驱动程序组成,该驱动程序将任务分配给多个工作节点。每个工作线程可以承担与可用核心数量相等的任务数量。所以我认为任务完成的速度取决于可用核心总数。
考虑以下集群配置,以 AWS EC2 为例:
或者
我使用这些实例作为示例;这与这些实例无关,而是与一般想法有关,即您可以使用不同的配置拥有相同数量的内核+ RAM。这两种集群配置的性能有什么区别吗?两者都具有相同的内核和 RAM 总量,以及相同的 RAM/内核比率。您会选择其中一项做什么工作,另一项又是什么?我自己对此有一些想法:
您同意以上说法吗?在总 RAM/内核数量相同的不同配置之间进行选择时,您还会考虑哪些其他因素?
给定一个 Julia 列表列表:
\ndata = [[1,2],[4,5]]\nRun Code Online (Sandbox Code Playgroud)\n其中有 type Vector{Int64},我如何将其转换为 2D 数据类型(例如2\xc3\x972 Matrix{Int64}),以便我可以像这样索引它data[:,2]?我尝试过hcat,vcat但无法得到我想要的结果。提前致谢!