使用SparkR运行R模型

Sur*_*uri 5 r sparkr apache-spark-mllib

提前感谢您的意见.我是ML的新手.我开发了一个R模型(在我的本地使用R studio),并希望在安装了R Studio的hadoop集群上进行部署.我想使用SparkR来利用高性能计算.我只想在这里了解SparkR的作用.

SparkR会使R模型在Hadoop集群上的Spark ML中运行算法吗?

要么

SparkR只能进行数据处理,而ML算法仍然会在Hadoop集群的R上下文中运行吗?

感谢您的意见.

des*_*aut 0

这些都是一般性问题,但实际上有一个非常简单明了的答案:(两者都);SparkR 两者都不会做。

来自SparkR 文档的概述部分:

SparkR 是一个 R 包,它提供了一个轻量级前端来使用 R 中的 Apache Spark。

SparkR 甚至无法读取原生 R 模型。

使用 SparkR 进行 ML 任务背后的想法是,您专门在 SparkR 中开发模型(如果您尝试,您还会发现,与 R 中通过各种包提供的大量模型相比,它的局限性要大得多)。

即使像包confusionMatrix中的便利设施caret也不可用,因为它们在 R 数据帧上运行,而不是在 Spark 数据帧上运行(请参阅此问题与解答)。