相关疑难解决方法(0)

火花可以与纱线管理的hadoop集群上使用的火花一起使用吗？

是sparklyr- [R包能够连接到YARN管理Hadoop集群？这似乎没有在集群部署文档中记录.使用SparkRSpark附带的软件包可以通过以下方式实现:

# set R environment variables
Sys.setenv(YARN_CONF_DIR=...)
Sys.setenv(SPARK_CONF_DIR=...)
Sys.setenv(LD_LIBRARY_PATH=...)
Sys.setenv(SPARKR_SUBMIT_ARGS=...)

spark_lib_dir <- ... # install specific
library(SparkR, lib.loc = c(sparkr_lib_dir, .libPaths()))
sc <- sparkR.init(master = "yarn-client")

Run Code Online (Sandbox Code Playgroud)

然而,当我用上面的最后一行交换时

library(sparklyr)
sc <- spark_connect(master = "yarn-client")

Run Code Online (Sandbox Code Playgroud)

我收到错误:

Error in start_shell(scon, list(), jars, packages) : 
  Failed to launch Spark shell. Ports file does not exist.
    Path: /usr/hdp/2.4.2.0-258/spark/bin/spark-submit
    Parameters: '--packages' 'com.databricks:spark-csv_2.11:1.3.0,com.amazonaws:aws-java-sdk-pom:1.10.34' '--jars' '<path to R lib>/3.2/sparklyr/java/rspark_utils.jar'  sparkr-shell /tmp/RtmpT31OQT/filecfb07d7f8bfd.out

Ivy Default Cache set to: /home/mpollock/.ivy2/cache
The jars for …

Run Code Online (Sandbox Code Playgroud)

r hadoop-yarn apache-spark sparkapi sparklyr

Mat*_*ock

2016 07-20

4
推荐指数

1
解决办法

6423
查看次数