我正在尝试使用 Sparklyr 将 R 连接到 Spark。
我按照 rstudio 博客的教程进行操作
我尝试使用安装sparklyr
install.packages("sparklyr")一切顺利,但在另一篇文章中,我看到sparklyr_0.4版本中有一个错误。所以我按照说明使用下载开发版本
devtools::install_github("rstudio/sparklyr")这也很顺利,现在我的sparklyr版本是sparklyr_0.4.16。
我按照 rstudio 教程下载并安装 Spark 使用
spark_install(version = "1.6.2")
Run Code Online (Sandbox Code Playgroud)
当我尝试第一次使用连接到 Spark 时
sc <- spark_connect(master = "local")
Run Code Online (Sandbox Code Playgroud)
出现以下错误。
Created default hadoop bin directory under: C:\Users\rkaku\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\tmp\hadoop
Error:
To run Spark on Windows you need a copy of Hadoop winutils.exe:
1. Download Hadoop winutils.exe from:
https://github.com/steveloughran/winutils/raw/master/hadoop-2.6.0/bin/
2. Copy winutils.exe to C:\Users\rkaku\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\tmp\hadoop\bin
Alternatively, if you are using RStudio you can install the RStudio Preview Release,
which includes an embedded copy …Run Code Online (Sandbox Code Playgroud)