小编Rak*_*mar的帖子

尝试使用 Sparklyr 将 R 连接到 Spark

我正在尝试使用 Sparklyr 将 R 连接到 Spark。

我按照 rstudio 博客的教程进行操作

我尝试使用安装sparklyr

install.packages("sparklyr")一切顺利，但在另一篇文章中，我看到sparklyr_0.4版本中有一个错误。所以我按照说明使用下载开发版本
devtools::install_github("rstudio/sparklyr")这也很顺利，现在我的sparklyr版本是sparklyr_0.4.16。

我按照 rstudio 教程下载并安装 Spark 使用

spark_install(version = "1.6.2")

Run Code Online (Sandbox Code Playgroud)

当我尝试第一次使用连接到 Spark 时

sc <- spark_connect(master = "local")

Run Code Online (Sandbox Code Playgroud)

出现以下错误。

Created default hadoop bin directory under: C:\Users\rkaku\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\tmp\hadoop
Error: 
To run Spark on Windows you need a copy of Hadoop winutils.exe:
1. Download Hadoop winutils.exe from:
   https://github.com/steveloughran/winutils/raw/master/hadoop-2.6.0/bin/
2. Copy winutils.exe to C:\Users\rkaku\AppData\Local\rstudio\spark\Cache\spark-1.6.2-bin-hadoop2.6\tmp\hadoop\bin
Alternatively, if you are using RStudio you can install the RStudio Preview Release,
which includes an embedded copy …

Run Code Online (Sandbox Code Playgroud)

r apache-spark sparklyr

Rak*_*mar

2016 10-17

5
推荐指数

1
解决办法

3320
查看次数

标签统计

apache-spark ×1

r ×1

sparklyr ×1

尝试使用 Sparklyr 将 R 连接到 Spark

标签 统计

小编Rak_mar的帖子

标签统计