标签: sparkr

sparkr 数据块错误：打开的设备太多

我sparkr在 Databricks 上使用了简单的数据操作。代码在一分钟前工作得很好，突然我开始收到以下错误：

png(fileName, width = plotWidth, height = plotHeight, pointsize = plotPointSize, 中的错误：打开的设备太多

即使我使用，例如：

mtcars %>% select(mpg)

Run Code Online (Sandbox Code Playgroud)

我没有做任何情节。解决办法是什么？

r apache-spark sparkr databricks

Gee*_*eet

2018 07-26

4
推荐指数

1
解决办法

1378
查看次数

如何在sparkR中绑定两个dataframe列？

如何在Spark 1.4的SparkR中绑定两列数据帧

TIA,Arun

apache-spark apache-spark-sql sparkr

Aru*_*lan

lucky-day

3
推荐指数

1
解决办法

1445
查看次数

SparkR：在多个连接条件下连接两个数据帧

SparkR 版本 1.4.1

我试图在两个连接条件下连接两个数据帧 df1 和 df2，如下所示：

df3 <- join(df1, df2, df1$col1==df2$col2 && df1$col3==df2$col4)

Run Code Online (Sandbox Code Playgroud)

但是，这失败并出现以下错误： invalid 'x' type in 'x && y'

在单一条件下加入工作正常。

join sparkr

use*_*080

lucky-day

3
推荐指数

1
解决办法

1488
查看次数

是否可以在Sparklyr中将ORC文件读取到Spark数据框？

我知道sparklyr有以下读取文件方法:

spark_read_csv
spark_read_parquet
spark_read_json

那么阅读orc文件怎么样？这个图书馆是否支持它？

我知道我可以在SparkR或者这个解决方案中使用read.orc,但是我想把我的代码保存在sparklyr中.

r apache-spark sparkr orc sparklyr

mrj*_*eph

2017 08-09

3
推荐指数

1
解决办法

1005
查看次数

如何在Spark中检查两个DataFrame列的交集

使用pyspark或者sparkr(最好是两个),如何获得两DataFrame列的交集？例如,sparkr我有以下内容DataFrames:

newHires <- data.frame(name = c("Thomas", "George", "George", "John"),
                       surname = c("Smith", "Williams", "Brown", "Taylor"))
salesTeam <- data.frame(name = c("Lucas", "Bill", "George"),
                        surname = c("Martin", "Clark", "Williams"))
newHiresDF <- createDataFrame(newHires)
salesTeamDF <- createDataFrame(salesTeam)

#Intersect works for the entire DataFrames
newSalesHire <- intersect(newHiresDF, salesTeamDF)
head(newSalesHire)

        name  surname
    1 George Williams

#Intersect does not work for single columns
newSalesHire <- intersect(newHiresDF$name, salesTeamDF$name)
head(newSalesHire)

Run Code Online (Sandbox Code Playgroud)

我怎样才能intersect为单列工作？

apache-spark pyspark sparkr

Gau*_*sal

2019 10-14

3
推荐指数

1
解决办法

1万
查看次数

“未使用的参数（替换 = FALSE）”R 中的 sample() 错误（在 AWS 上）

我在 AWS 上的 Elastic MapReduce 集群上运行 R 代码，涉及从 S3 存储桶导入的数据。我正在使用 SparkR 库测试 Apache Spark 的一些功能。这是我试图运行的代码。

mnist_train <- SparkR::read.df("s3a://spark-rstudio-test-new/mnist_train.csv", 
                  header = "false", source = "csv", 
                  inferSchema = "true", na.strings = "")
subsamplesize <- 30000
subsample <- sample(nrow(mnist_train), subsamplesize, replace = FALSE)

Run Code Online (Sandbox Code Playgroud)

这将返回以下错误：

“样本错误（nrow（mnist_train），subsamplesize，replace = F）：未使用的参数（replace = F）”

同一段代码适用于我本地的 RStudio。这里发生了什么？我会很感激任何方向。

r apache-spark sparkr

Jai*_*are

2017 10-23

3
推荐指数

1
解决办法

1203
查看次数

从 R 笔记本访问 Azure Blob 存储

在 python 中，这就是我从 Azure blob 访问 csv 的方式

storage_account_name = "testname"
storage_account_access_key = "..."
file_location = "wasb://example@testname.blob.core.windows.net/testfile.csv"

spark.conf.set(
  "fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
  storage_account_access_key)

df = spark.read.format('csv').load(file_location, header = True, inferSchema = True)

Run Code Online (Sandbox Code Playgroud)

我怎样才能在 R 中做到这一点？我找不到任何文档...

r azure azure-storage sparkr

use*_*794

2019 02-24

3
推荐指数

1
解决办法

4750
查看次数

在Spark中写入指定的Parquet文件名

我正在使用SparkR，并且想write.df用作特定的文件夹：

write.df(my.sdf,path='/path/to/folder/',source='parquet')

理想情况下，我想指定一个完整的路径名，即 /path/to/folder/this_parquet_file.parquet.gz

这有可能吗？

apache-spark sparkr

Hen*_*nry

lucky-day

2
推荐指数

1
解决办法

1015
查看次数

从SparkR DataFrame绘制数据

我有一个avro文件,我正在阅读如下:

avroFile <-read.df(sqlContext, "avro", "com.databricks.spark.avro")

Run Code Online (Sandbox Code Playgroud)

这个文件作为lat/lon列,但我无法像常规数据框一样绘制它们.我也无法使用'$'运算符访问该列.

恩.

avroFile$latitude

Run Code Online (Sandbox Code Playgroud)

有关avro文件和使用R对它们进行操作的任何帮助都表示赞赏.

r ggplot2 dataframe avro sparkr

Vis*_*l R

2016 03-04

2
推荐指数

1
解决办法

2754
查看次数

如何为sparkR运行R脚本？

我从终端运行sparkR 2.0.0,我可以运行R命令.但是,如何创建.r脚本并能够在spark会话中运行它.

r apache-spark sparkr

Jon*_*han

lucky-day

2
推荐指数

1
解决办法

3185
查看次数

标签统计

sparkr ×10

apache-spark ×7

r ×6

apache-spark-sql ×1

avro ×1

azure ×1

azure-storage ×1

databricks ×1

dataframe ×1

ggplot2 ×1

join ×1

orc ×1

pyspark ×1

sparklyr ×1

标签 统计

标签统计