小编Rak*_*mar的帖子

尝试使用 Sparklyr 将 R 连接到 Spark

我正在尝试使用 Sparklyr 将 R 连接到 Spark。

我按照 rstudio 博客的教程进行操作

我尝试使用安装sparklyr

  • install.packages("sparklyr")一切顺利,但在另一篇文章中,我看到sparklyr_0.4版本中有一个错误。所以我按照说明使用下载开发版本

  • devtools::install_github("rstudio/sparklyr")这也很顺利,现在我的sparklyr版本是sparklyr_0.4.16。

我按照 rstudio 教程下载并安装 Spark 使用

spark_install(version = "1.6.2")
Run Code Online (Sandbox Code Playgroud)

当我尝试第一次使用连接到 Spark 时

sc <- spark_connect(master = "local")
Run Code Online (Sandbox Code Playgroud)

出现以下错误。

Created default hadoop bin directory under: C:\Users\rkaku\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\tmp\hadoop
Error: 
To run Spark on Windows you need a copy of Hadoop winutils.exe:
1. Download Hadoop winutils.exe from:
   https://github.com/steveloughran/winutils/raw/master/hadoop-2.6.0/bin/
2. Copy winutils.exe to C:\Users\rkaku\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\tmp\hadoop\bin
Alternatively, if you are using RStudio you can install the RStudio Preview Release,
which includes an embedded copy …
Run Code Online (Sandbox Code Playgroud)

r apache-spark sparklyr

5
推荐指数
1
解决办法
3320
查看次数

标签 统计

apache-spark ×1

r ×1

sparklyr ×1