如何在RStudio上将csv文件加载到SparkR？

Question

如何在RStudio上将csv文件加载到SparkR？

sha*_*arp 5 r apache-spark apache-spark-sql sparkr

如何在RStudio上将csv文件加载到SparkR？以下是我在RStudio上运行SparkR时必须执行的步骤.我用read.df读取.csv不知道怎么写这个.不确定此步骤是否被视为创建RDD.

#Set sys environment variables
Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2.6")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

#Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"')

#Load libraries
library(SparkR)
library(magrittr)

sc <- sparkR.init(master="local")
sc <- sparkR.init()
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3")
sqlContext <- sparkRSQL.init(sc)

data <- read.df(sqlContext, "C:/Users/Desktop/DataSets/hello_world.csv", "com.databricks.spark.csv", header="true")

Run Code Online (Sandbox Code Playgroud)

我收到错误:

Error in writeJobj(con, object) : invalid jobj 1

Run Code Online (Sandbox Code Playgroud)

Answer 1

zer*_*323 3

火花2.0.0+：

您可以使用csv数据源：

loadDF(sqlContext, path="some_path", source="csv", header="true")

Run Code Online (Sandbox Code Playgroud)

无需加载spark-csv。

原答案：

据我所知，您使用的是错误版本的spark-csv. Spark 的预构建版本使用 Scala 2.10，但您使用的是 Scala 2.11 的 Spark CSV。试试这个：

sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.10:1.2.0")

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，1 月前
查看次数：	1611 次
最近记录：	9 年，4 月前