将sql数据表转换为sparklyr数据框

Gee*_*eet 0 r databricks sparklyr tidyverse

我将 data.csv 上传到 Microsoft Azure 存储资源管理器。然后复制url并在databricks中创建一个表。

%sql 
DROP TABLE If EXISTS data; 
CREATE TABLE IF NOT EXISTS data 
USING CSV 
OPTIONS (header "true", inferSchema "true") 
LOCATION "url/data.csv" 
Run Code Online (Sandbox Code Playgroud)

现在我想使用sparklyr来操作“数据”。

我应该如何将上述数据转换为 Sparklyr 数据框以充分利用 Sparklyr 的潜力?

Tom*_*Tom 5

首先,您必须按如下方式初始化 Sparklyr 会话:

sc = spark_connect(method = 'databricks')
Run Code Online (Sandbox Code Playgroud)

然后您可以使用以下命令直接从 SQL 表中读取:

sdf_sql(sc, 'SELECT * From ...')
Run Code Online (Sandbox Code Playgroud)

然后正常执行所有常用的 Sparklyr/dplyr 工作。

请注意,databricks 集群并未预加载 Sparklyr,因为它们希望促使您使用 SparkR API 与数据进行交互。如果您要使用 Sparklyr API,则必须在每次启动集群时安装并加载 Sparklyr。

  • 哇……这真是太神奇了!!我等待解决方案很久了。你救了我的命!非常感谢,汤姆。真的很感激! (3认同)