小编cir*_*iri的帖子

使用Pyspark查询数据框中的json对象

我有一个具有以下架构的MySql表:

id-int
path-varchar
info-json {"name":"pat", "address":"NY, USA"....}
Run Code Online (Sandbox Code Playgroud)

我使用JDBC驱动程序将pyspark连接到MySql。我可以使用以下方法从mysql检索数据

df = sqlContext.sql("select * from dbTable")
Run Code Online (Sandbox Code Playgroud)

此查询一切正常。我的问题是,如何查询“信息”列?例如,下面的查询在MySQL Shell中正常工作并检索数据,但是Pyspark(2+)不支持此功能。

select id, info->"$.name" from dbTable where info->"$.name"='pat'
Run Code Online (Sandbox Code Playgroud)

python mysql json apache-spark pyspark

3
推荐指数
1
解决办法
3383
查看次数

标签 统计

apache-spark ×1

json ×1

mysql ×1

pyspark ×1

python ×1