pyspark 在数据框中传递多个选项

Question

pyspark 在数据框中传递多个选项

JKB*_*JKB 0 apache-spark-sql pyspark-sql

我是 python 和 pyspark 的新手。我想知道如何在 pyspark 中编写以下 spark 数据帧函数：

val df = spark.read.format("jdbc").options(
       Map(
        "url" -> "jdbc:someDB", 
        "user" -> "root", 
        "password" -> "password", 
        "dbtable" -> "tableName", 
        "driver" -> "someDriver")).load()

Run Code Online (Sandbox Code Playgroud)

我试着在pyspark中写如下。但是，得到语法错误：

df = spark.read.format("jdbc").options(
      map(lambda : ("url","jdbc:someDB"), ("user","root"), ("password","password"), ("dbtable","tableName"), ("driver","someDriver"))).load()

Run Code Online (Sandbox Code Playgroud)

提前致谢

Answer 1

Cza*_*rka 5

在 PySpark 中，将选项作为关键字参数传递：

df = spark.read\
    .format("jdbc")\
    .options(
        url="jdbc:someDB",
        user="root",
        password="password",
        dbtable="tableName",
        driver="someDriver",
    )\
    .load()

Run Code Online (Sandbox Code Playgroud)

有时将它们保存在 a 中dict并稍后使用 splat 操作符解压它们会很方便：

options = {
    "url": "jdbc:someDB",
    "user": "root",
    "password": "password",
    "dbtable": "tableName",
    "driver": "someDriver",
}

df = spark.read\
    .format("jdbc")\
    .options(**options)\
    .load()

Run Code Online (Sandbox Code Playgroud)

关于您问题中的代码片段：您碰巧混淆了“地图”的两个不同概念：

Map 在 Scala 中是一种数据结构，也称为“关联数组”或“字典”，相当于 Python 的 dict
map 在 Python 中是一个高阶函数，可用于将函数应用于可迭代对象，例如：

In [1]: def square(x: int) -> int:
   ...:     return x**2
   ...:

In [2]: list(map(square, [1, 2, 3, 4, 5]))
Out[2]: [1, 4, 9, 16, 25]

In [3]: # or just use a lambda

In [4]: list(map(lambda x: x**2, [1, 2, 3, 4, 5]))
Out[4]: [1, 4, 9, 16, 25]

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，5 月前
查看次数：	1998 次
最近记录：	5 年，2 月前