将sql数据表转换为sparklyr数据框

Question

我将 data.csv 上传到 Microsoft Azure 存储资源管理器。然后复制url并在databricks中创建一个表。

%sql 
DROP TABLE If EXISTS data; 
CREATE TABLE IF NOT EXISTS data 
USING CSV 
OPTIONS (header "true", inferSchema "true") 
LOCATION "url/data.csv"

现在我想使用sparklyr来操作“数据”。

我应该如何将上述数据转换为 Sparklyr 数据框以充分利用 Sparklyr 的潜力？

Answer 1

首先，您必须按如下方式初始化 Sparklyr 会话：

sc = spark_connect(method = 'databricks')

然后您可以使用以下命令直接从 SQL 表中读取：

sdf_sql(sc, 'SELECT * From ...')

然后正常执行所有常用的 Sparklyr/dplyr 工作。

请注意，databricks 集群并未预加载 Sparklyr，因为它们希望促使您使用 SparkR API 与数据进行交互。如果您要使用 Sparklyr API，则必须在每次启动集群时安装并加载 Sparklyr。