如何在RStudio上将csv文件加载到SparkR?

sha*_*arp 5 r apache-spark apache-spark-sql sparkr

如何在RStudio上将csv文件加载到SparkR?以下是我在RStudio上运行SparkR时必须执行的步骤.我用read.df读取.csv不知道怎么写这个.不确定此步骤是否被视为创建RDD.

#Set sys environment variables
Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2.6")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

#Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"')

#Load libraries
library(SparkR)
library(magrittr)

sc <- sparkR.init(master="local")
sc <- sparkR.init()
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3")
sqlContext <- sparkRSQL.init(sc)

data <- read.df(sqlContext, "C:/Users/Desktop/DataSets/hello_world.csv", "com.databricks.spark.csv", header="true")
Run Code Online (Sandbox Code Playgroud)

我收到错误:

Error in writeJobj(con, object) : invalid jobj 1
Run Code Online (Sandbox Code Playgroud)

zer*_*323 3

火花2.0.0+

您可以使用csv数据源:

loadDF(sqlContext, path="some_path", source="csv", header="true")
Run Code Online (Sandbox Code Playgroud)

无需加载spark-csv

原答案

据我所知,您使用的是错误版本的spark-csv. Spark 的预构建版本使用 Scala 2.10,但您使用的是 Scala 2.11 的 Spark CSV。试试这个:

sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.10:1.2.0")
Run Code Online (Sandbox Code Playgroud)