Tro*_*ump 3 sql-server jdbc pyspark
os.environ.get("PYSPARK_SUBMIT_ARGS", "--master yarn-client --conf spark.yarn.executor.memoryOverhead=6144 \
--executor-memory 1G –jars /mssql/jre8/sqljdbc42.jar --driver-class-path /mssql/jre8/sqljdbc42.jar")
source_df = sqlContext.read.format('jdbc').options(
url='dbc:sqlserver://xxxx.xxxxx.com',
database = "mydbname",
dbtable=mytable,
user=username,
password=pwd,
driver='com.microsoft.jdbc.sqlserver.SQLServerDriver'
).load()
Run Code Online (Sandbox Code Playgroud)
我正在尝试使用 Spark 上下文加载 SQL Server 表。
但是遇到以下错误。
Py4JJavaError: An error occurred while calling o59.load.
: java.lang.ClassNotFoundException: com.microsoft.sqlserver.jdbc.SQLServerDriver
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
Run Code Online (Sandbox Code Playgroud)
我在该位置有 jar 文件。那是正确的jar文件吗?是不是代码有问题。
不知道是什么问题。
斯卡拉错误
scala> classOf[com.microsoft.sqlserver.jdbc.SQLServerDriver]
<console>:27: error: object sqlserver is not a member of package com.microsoft
classOf[com.microsoft.sqlserver.jdbc.SQLServerDriver]
scala> classOf[com.microsoft.jdbc.sqlserver.SQLServerDriver]
<console>:27: error: object jdbc is not a member of package com.microsoft
classOf[com.microsoft.jdbc.sqlserver.SQLServerDriver]
Run Code Online (Sandbox Code Playgroud)
ken*_*yut 14
配置与Spark-Oracle配置类似。这是我的 Spark-sqlserver 配置:
from pyspark.sql import SparkSession
spark = SparkSession\
.builder\
.master('local[*]')\
.appName('Connection-Test')\
.config('spark.driver.extraClassPath', '/your/jar/folder/sqljdbc42.jar')\
.config('spark.executor.extraClassPath', '/your/jar/folder/sqljdbc42.jar')\
.getOrCreate()
sqlsUrl = 'jdbc:sqlserver://your.sql.server.ip:1433;database=YourSQLDB'
qryStr = """ (
SELECT *
FROM yourtable
) t """
spark.read.format('jdbc')\
.option('url',sqlsUrl)\
.option('driver', 'com.microsoft.sqlserver.jdbc.SQLServerDriver')\
.option('dbtable', qryStr )\
.option("user", "yourID") \
.option("password", "yourPasswd") \
.load().show()
Run Code Online (Sandbox Code Playgroud)
小智 5
我在 Windows 中安装了 Spark 并按照此处描述的步骤连接到 SQL Server 时遇到相同的错误https://docs.azuredatabricks.net/spark/latest/data-sources/sql-databases.html#python-example。我像下面这样解决了这个问题 -
1) 从这里下载 SQL Server JDBC 驱动程序https://www.microsoft.com/en-us/download/details.aspx?id=11774。
2) 解压为“Microsoft JDBC Driver 6.0 for SQL Server”
3)在“Microsoft JDBC Driver 6.0 for SQL Server”文件夹中找到JDBC jar文件(如sqljdbc42.jar)。
4) 将 jar 文件(如 sqljdbc42.jar)复制到 Spark 主文件夹下的“jars”文件夹。就我而言,我将其复制并粘贴到“D:\spark-2.3.1-bin-hadoop2.6\jars”
5)重启pyspark
通过这种方式,我为 Windows 服务器解决了这个问题。
| 归档时间: |
|
| 查看次数: |
5975 次 |
| 最近记录: |