如何将 sql 表转换为 pyspark/python 数据结构并返回到 databricks notebook 中的 sql

Sem*_*ken 1 python sql apache-spark databricks

我在数据块上运行一个 sql 笔记本。我想分析一个包含 50 亿条记录的表。我可以对数据运行简单的 sql 查询。但是,我需要将日期列类型从 str 更改为 date。

不幸的是,sparkSQL 似乎不支持更新/更改语句,因此我似乎无法修改表中的数据。

允许我在下一个单元格中将 SQL 表转换为 python 数据结构(在 pyspark 中)的一行代码是什么? 然后我可以修改文件并将其返回给 SQL。

Dav*_*vid 5

dataFrame = sqlContext.sql('select * from myTable')
Run Code Online (Sandbox Code Playgroud)