Jai*_*are 3 r apache-spark sparkr
我在 AWS 上的 Elastic MapReduce 集群上运行 R 代码,涉及从 S3 存储桶导入的数据。我正在使用 SparkR 库测试 Apache Spark 的一些功能。这是我试图运行的代码。
mnist_train <- SparkR::read.df("s3a://spark-rstudio-test-new/mnist_train.csv",
header = "false", source = "csv",
inferSchema = "true", na.strings = "")
subsamplesize <- 30000
subsample <- sample(nrow(mnist_train), subsamplesize, replace = FALSE)
Run Code Online (Sandbox Code Playgroud)
这将返回以下错误:
“样本错误(nrow(mnist_train),subsamplesize,replace = F):未使用的参数(replace = F)”
同一段代码适用于我本地的 RStudio。这里发生了什么?我会很感激任何方向。
它看起来像 SparkR 实现,它具有不兼容的签名,从base. 使用完全限定名称应该可以解决问题:
base::sample(nrow(mnist_train), subsamplesize, replace = FALSE)
Run Code Online (Sandbox Code Playgroud)