我sparkr在 Databricks 上使用了简单的数据操作。代码在一分钟前工作得很好,突然我开始收到以下错误:
png(fileName, width = plotWidth, height = plotHeight, pointsize = plotPointSize, 中的错误:打开的设备太多
即使我使用,例如:
mtcars %>% select(mpg)
Run Code Online (Sandbox Code Playgroud)
我没有做任何情节。解决办法是什么?
如何在Spark 1.4的SparkR中绑定两列数据帧
TIA,Arun
SparkR 版本 1.4.1
我试图在两个连接条件下连接两个数据帧 df1 和 df2,如下所示:
df3 <- join(df1, df2, df1$col1==df2$col2 && df1$col3==df2$col4)
Run Code Online (Sandbox Code Playgroud)
但是,这失败并出现以下错误: invalid 'x' type in 'x && y'
在单一条件下加入工作正常。
我知道sparklyr有以下读取文件方法:
spark_read_csvspark_read_parquetspark_read_json那么阅读orc文件怎么样?这个图书馆是否支持它?
使用pyspark或者sparkr(最好是两个),如何获得两DataFrame列的交集?例如,sparkr我有以下内容DataFrames:
newHires <- data.frame(name = c("Thomas", "George", "George", "John"),
surname = c("Smith", "Williams", "Brown", "Taylor"))
salesTeam <- data.frame(name = c("Lucas", "Bill", "George"),
surname = c("Martin", "Clark", "Williams"))
newHiresDF <- createDataFrame(newHires)
salesTeamDF <- createDataFrame(salesTeam)
#Intersect works for the entire DataFrames
newSalesHire <- intersect(newHiresDF, salesTeamDF)
head(newSalesHire)
name surname
1 George Williams
#Intersect does not work for single columns
newSalesHire <- intersect(newHiresDF$name, salesTeamDF$name)
head(newSalesHire)
Run Code Online (Sandbox Code Playgroud)
我怎样才能intersect为单列工作?
我在 AWS 上的 Elastic MapReduce 集群上运行 R 代码,涉及从 S3 存储桶导入的数据。我正在使用 SparkR 库测试 Apache Spark 的一些功能。这是我试图运行的代码。
mnist_train <- SparkR::read.df("s3a://spark-rstudio-test-new/mnist_train.csv",
header = "false", source = "csv",
inferSchema = "true", na.strings = "")
subsamplesize <- 30000
subsample <- sample(nrow(mnist_train), subsamplesize, replace = FALSE)
Run Code Online (Sandbox Code Playgroud)
这将返回以下错误:
“样本错误(nrow(mnist_train),subsamplesize,replace = F):未使用的参数(replace = F)”
同一段代码适用于我本地的 RStudio。这里发生了什么?我会很感激任何方向。
在 python 中,这就是我从 Azure blob 访问 csv 的方式
storage_account_name = "testname"
storage_account_access_key = "..."
file_location = "wasb://example@testname.blob.core.windows.net/testfile.csv"
spark.conf.set(
"fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
storage_account_access_key)
df = spark.read.format('csv').load(file_location, header = True, inferSchema = True)
Run Code Online (Sandbox Code Playgroud)
我怎样才能在 R 中做到这一点?我找不到任何文档...
我正在使用SparkR,并且想write.df用作特定的文件夹:
write.df(my.sdf,path='/path/to/folder/',source='parquet')
理想情况下,我想指定一个完整的路径名,即 /path/to/folder/this_parquet_file.parquet.gz
这有可能吗?
我有一个avro文件,我正在阅读如下:
avroFile <-read.df(sqlContext, "avro", "com.databricks.spark.avro")
Run Code Online (Sandbox Code Playgroud)
这个文件作为lat/lon列,但我无法像常规数据框一样绘制它们.我也无法使用'$'运算符访问该列.
恩.
avroFile$latitude
Run Code Online (Sandbox Code Playgroud)
有关avro文件和使用R对它们进行操作的任何帮助都表示赞赏.
我从终端运行sparkR 2.0.0,我可以运行R命令.但是,如何创建.r脚本并能够在spark会话中运行它.