是否可以将 SparkR 上的 data.table 与 Sparkdataframes 一起使用?

Orh*_*zar 4 r cluster-computing apache-spark data.table sparkr

情况

我曾经使用 data.table 而不是 plyr 或 sqldf 在 Rstudio 上工作,因为它非常快。现在,我正在一个 azure 集群上研究 sparkR,如果我现在可以在我的 spark 数据帧上使用 data.table 并且它比 sql 快,我想现在吗?

小智 5

这不可能。SparkDataFrames是具有瘦 R 接口的 Java 对象。虽然在某些有限的情况下可以使用工作端 R ( dapply, gapply),但在那里没有用data.table

  • 谢谢,但是保留数据帧并使用 data.table 或使用 SparkDataFrames 并使用 Sparklyr 或 SparkSQL 更快吗? (2认同)