我不是系统管理员,但我可能需要执行一些管理任务,因此需要一些帮助。
我们有一个(远程)Hadoop 集群,人们通常在集群上运行 map-reduce 作业。
我计划在集群上安装 Apache Spark,以便可以利用集群中的所有机器。这应该是可能的,我从http://spark.apache.org/docs/latest/spark-standalone.html 中读到“您可以在现有的 Hadoop 集群旁边运行 Spark,只需在同一台机器上将它作为单独的服务启动……”
如果你以前做过这个,请给我详细的步骤,以便创建 Spark 集群。
我需要乘以两个大矩阵,X并且Y.通常X具有~500K行和~18K列,并Y具有~18K行和~18K列.X预计矩阵是稀疏的,并且矩阵Y预计是稀疏/密集的.在Scala/Apache Spark中执行此乘法的理想方法是什么?
scala sparse-matrix large-data matrix-multiplication apache-spark