Gee*_*eet 0 r databricks sparklyr tidyverse
我将 data.csv 上传到 Microsoft Azure 存储资源管理器。然后复制url并在databricks中创建一个表。
%sql
DROP TABLE If EXISTS data;
CREATE TABLE IF NOT EXISTS data
USING CSV
OPTIONS (header "true", inferSchema "true")
LOCATION "url/data.csv"
Run Code Online (Sandbox Code Playgroud)
现在我想使用sparklyr来操作“数据”。
我应该如何将上述数据转换为 Sparklyr 数据框以充分利用 Sparklyr 的潜力?
首先,您必须按如下方式初始化 Sparklyr 会话:
sc = spark_connect(method = 'databricks')
Run Code Online (Sandbox Code Playgroud)
然后您可以使用以下命令直接从 SQL 表中读取:
sdf_sql(sc, 'SELECT * From ...')
Run Code Online (Sandbox Code Playgroud)
然后正常执行所有常用的 Sparklyr/dplyr 工作。
请注意,databricks 集群并未预加载 Sparklyr,因为它们希望促使您使用 SparkR API 与数据进行交互。如果您要使用 Sparklyr API,则必须在每次启动集群时安装并加载 Sparklyr。