sha*_*arp 5 r apache-spark apache-spark-sql sparkr
如何在RStudio上将csv文件加载到SparkR?以下是我在RStudio上运行SparkR时必须执行的步骤.我用read.df读取.csv不知道怎么写这个.不确定此步骤是否被视为创建RDD.
#Set sys environment variables
Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2.6")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))
#Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"')
#Load libraries
library(SparkR)
library(magrittr)
sc <- sparkR.init(master="local")
sc <- sparkR.init()
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3")
sqlContext <- sparkRSQL.init(sc)
data <- read.df(sqlContext, "C:/Users/Desktop/DataSets/hello_world.csv", "com.databricks.spark.csv", header="true")
Run Code Online (Sandbox Code Playgroud)
我收到错误:
Error in writeJobj(con, object) : invalid jobj 1
Run Code Online (Sandbox Code Playgroud)
火花2.0.0+:
您可以使用csv数据源:
loadDF(sqlContext, path="some_path", source="csv", header="true")
Run Code Online (Sandbox Code Playgroud)
无需加载spark-csv。
原答案:
据我所知,您使用的是错误版本的spark-csv. Spark 的预构建版本使用 Scala 2.10,但您使用的是 Scala 2.11 的 Spark CSV。试试这个:
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.10:1.2.0")
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1611 次 |
| 最近记录: |