标签: sparkr

sparkr 数据块错误:打开的设备太多

sparkr在 Databricks 上使用了简单的数据操作。代码在一分钟前工作得很好,突然我开始收到以下错误:

png(fileName, width = plotWidth, height = plotHeight, pointsize = plotPointSize, 中的错误:打开的设备太多

即使我使用,例如:

mtcars %>% select(mpg)
Run Code Online (Sandbox Code Playgroud)

我没有做任何情节。解决办法是什么?

r apache-spark sparkr databricks

4
推荐指数
1
解决办法
1378
查看次数

3
推荐指数
1
解决办法
1445
查看次数

SparkR:在多个连接条件下连接两个数据帧

SparkR 版本 1.4.1

我试图在两个连接条件下连接两个数据帧 df1 和 df2,如下所示:

df3 <- join(df1, df2, df1$col1==df2$col2 && df1$col3==df2$col4)
Run Code Online (Sandbox Code Playgroud)

但是,这失败并出现以下错误: invalid 'x' type in 'x && y'

在单一条件下加入工作正常。

join sparkr

3
推荐指数
1
解决办法
1488
查看次数

是否可以在Sparklyr中将ORC文件读取到Spark数据框?

我知道sparklyr有以下读取文件方法:

  • spark_read_csv
  • spark_read_parquet
  • spark_read_json

那么阅读orc文件怎么样?这个图书馆是否支持它?

我知道我可以在SparkR或者这个解决方案中使用read.orc,但是我想把我的代码保存在sparklyr中.

r apache-spark sparkr orc sparklyr

3
推荐指数
1
解决办法
1005
查看次数

如何在Spark中检查两个DataFrame列的交集

使用pyspark或者sparkr(最好是两个),如何获得两DataFrame列的交集?例如,sparkr我有以下内容DataFrames:

newHires <- data.frame(name = c("Thomas", "George", "George", "John"),
                       surname = c("Smith", "Williams", "Brown", "Taylor"))
salesTeam <- data.frame(name = c("Lucas", "Bill", "George"),
                        surname = c("Martin", "Clark", "Williams"))
newHiresDF <- createDataFrame(newHires)
salesTeamDF <- createDataFrame(salesTeam)

#Intersect works for the entire DataFrames
newSalesHire <- intersect(newHiresDF, salesTeamDF)
head(newSalesHire)

        name  surname
    1 George Williams

#Intersect does not work for single columns
newSalesHire <- intersect(newHiresDF$name, salesTeamDF$name)
head(newSalesHire)
Run Code Online (Sandbox Code Playgroud)

我怎样才能intersect为单列工作?

apache-spark pyspark sparkr

3
推荐指数
1
解决办法
1万
查看次数

“未使用的参数(替换 = FALSE)”R 中的 sample() 错误(在 AWS 上)

我在 AWS 上的 Elastic MapReduce 集群上运行 R 代码,涉及从 S3 存储桶导入的数据。我正在使用 SparkR 库测试 Apache Spark 的一些功能。这是我试图运行的代码。

mnist_train <- SparkR::read.df("s3a://spark-rstudio-test-new/mnist_train.csv", 
                  header = "false", source = "csv", 
                  inferSchema = "true", na.strings = "")
subsamplesize <- 30000
subsample <- sample(nrow(mnist_train), subsamplesize, replace = FALSE)
Run Code Online (Sandbox Code Playgroud)

这将返回以下错误:

“样本错误(nrow(mnist_train),subsamplesize,replace = F):未使用的参数(replace = F)”

同一段代码适用于我本地的 RStudio。这里发生了什么?我会很感激任何方向。

r apache-spark sparkr

3
推荐指数
1
解决办法
1203
查看次数

从 R 笔记本访问 Azure Blob 存储

在 python 中,这就是我从 Azure blob 访问 csv 的方式

storage_account_name = "testname"
storage_account_access_key = "..."
file_location = "wasb://example@testname.blob.core.windows.net/testfile.csv"

spark.conf.set(
  "fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
  storage_account_access_key)

df = spark.read.format('csv').load(file_location, header = True, inferSchema = True)
Run Code Online (Sandbox Code Playgroud)

我怎样才能在 R 中做到这一点?我找不到任何文档...

r azure azure-storage sparkr

3
推荐指数
1
解决办法
4750
查看次数

在Spark中写入指定的Parquet文件名

我正在使用SparkR,并且想write.df用作特定的文件夹:

write.df(my.sdf,path='/path/to/folder/',source='parquet')

理想情况下,我想指定一个完整的路径名,即 /path/to/folder/this_parquet_file.parquet.gz

这有可能吗?

apache-spark sparkr

2
推荐指数
1
解决办法
1015
查看次数

从SparkR DataFrame绘制数据

我有一个avro文件,我正在阅读如下:

avroFile <-read.df(sqlContext, "avro", "com.databricks.spark.avro")
Run Code Online (Sandbox Code Playgroud)

这个文件作为lat/lon列,但我无法像常规数据框一样绘制它们.我也无法使用'$'运算符访问该列.

恩.

avroFile$latitude
Run Code Online (Sandbox Code Playgroud)

有关avro文件和使用R对它们进行操作的任何帮助都表示赞赏.

r ggplot2 dataframe avro sparkr

2
推荐指数
1
解决办法
2754
查看次数

如何为sparkR运行R脚本?

我从终端运行sparkR 2.0.0,我可以运行R命令.但是,如何创建.r脚本并能够在spark会话中运行它.

r apache-spark sparkr

2
推荐指数
1
解决办法
3185
查看次数