ilo*_*mes 2 postgresql jdbc apache-spark pyspark
我想使用 JDBC 从 Postgresql 读取数据并将其存储在 pyspark dataframe 中。当我想使用 df.show()、df.take() 等方法预览数据框中的数据时,它们返回一个错误,指出原因是:java.lang.ClassNotFoundException: org.postgresql.Driver。但是 df.printschema() 会完美地返回数据库表的信息。这是我的代码:
from pyspark.sql import SparkSession
spark = (
SparkSession.builder.master("spark://spark-master:7077")
.appName("read-postgres-jdbc")
.config("spark.driver.extraClassPath", "/opt/workspace/postgresql-42.2.18.jar")
.config("spark.executor.memory", "1g")
.getOrCreate()
)
sc = spark.sparkContext
df = (
spark.read.format("jdbc")
.option("driver", "org.postgresql.Driver")
.option("url", "jdbc:postgresql://postgres/postgres")
.option("table", 'public."ASSET_DATA"')
.option("dbtable", _select_sql)
.option("user", "airflow")
.option("password", "airflow")
.load()
)
df.show(1)
Run Code Online (Sandbox Code Playgroud)
错误日志:
Py4JJavaError: An error occurred while calling o44.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, 172.21.0.6, executor 1): java.lang.ClassNotFoundException: org.postgresql.Driver
Caused by: java.lang.ClassNotFoundException: org.postgresql.Driver
Run Code Online (Sandbox Code Playgroud)
编辑于 2021 年 7 月 24 日 该脚本是在 JupyterLab 上与独立 Spark 集群分开的 docker 容器中执行的。
您没有使用正确的选项。阅读文档时,您会看到以下内容:
要添加到驱动程序类路径前面的额外类路径条目。注意:在客户端模式下,不能直接在应用程序中通过 SparkConf 设置此配置,因为此时驱动程序 JVM 已经启动。相反,请通过 --driver-class-path 命令行选项或在默认属性文件中进行设置。
此选项适用于驾驶员。这就是模式获取起作用的原因,它是在驱动程序端完成的操作。但是当您运行 Spark 命令时,该命令由工作人员(或执行人员)执行。他们还需要能够.jar访问 postgres。
如果您的 postgres 驱动程序(“/opt/workspace/postgresql-42.2.18.jar”)不需要任何依赖项,那么您可以使用spark.jars- 我知道 mysql 不需要依赖项,例如但我从未尝试过 postgres 将其添加到工作程序中。如果需要依赖,那么最好使用spark.jars.packages选项直接从maven调用包。(请参阅文档的链接以获取帮助)