hor*_*01d 3 hadoop apache-spark
我试图从服务器运行一个简单的火花到s3应用程序,但我一直得到以下错误,因为服务器安装了hadoop 2.7.3,看起来它不包括GlobalStorageStatistics类.http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/api/org/apache/hadoop/fs/GlobalStorageStatistics.html.我在我的pom中定义了hadoop 2.8.x .xml文件但尝试通过在本地运行来测试它.
如果我必须使用hadoop 2.7.3,我该如何让它忽略搜索或包含该类的解决方法选项?
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StorageStatistics
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
at org.apache.hadoop.conf.Configuration.getClassByNameOrNull(Configuration.java:2134)
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2099)
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2193)
at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2654)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
at org.apache.spark.sql.execution.datasources.DataSource.hasMetadata(DataSource.scala:301)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:344)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:441)
at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:425)
at com.ibm.cos.jdbc2DF$.main(jdbc2DF.scala:153)
at com.ibm.cos.jdbc2DF.main(jdbc2DF.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:738)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.StorageStatistics
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 28 more
Run Code Online (Sandbox Code Playgroud)
Ste*_*ran 11
你不能混合使用Hadoop并希望工作正常.它不仅仅是hadoop-common和hadoop-aws内部类之间的紧密耦合,而是像hadoop-aws模块构建它的amazon-aws SDK的特定版本.
除非您可以隔离类路径,否则您需要将POM回滚到2.7.3.
抱歉
小智 10
我发现史蒂夫上面的回答非常有帮助。他的信息启发了我在这里写文章。我将相关部分复制如下。我的答案是针对 Python/Windows 上下文定制的,但我怀疑大多数观点在 JVM/Linux 上下文中仍然相关。
这个答案是针对 Python 开发人员的,因此假设我们将通过 pip 间接安装 Apache Spark。当 pip 安装 PySpark 时,它会自动收集大多数依赖项,如 中所示.venv/Lib/site-packages/pyspark/jars。但是,要启用S3A 连接器,我们必须手动跟踪以下依赖项:
hadoop-awsaws-java-sdk-bundlewinutils.exe(和hadoop.dll) <-- 仅在 Windows 中需要假设我们通过 pip 安装 Spark,我们无法直接选择 Hadoop 版本。我们只能选择PySpark版本,例如pip install pyspark==3.1.3,这将间接确定Hadoop版本。例如,PySpark3.1.3映射到 Hadoop 3.2.0。
所有 Hadoop JAR 必须具有完全相同的版本,例如3.2.0. 使用 验证这一点cd pyspark/jars && ls -l | grep hadoop。请注意,它pip install pyspark自动包含了一些 Hadoop JAR。因此,如果这些 Hadoop JAR 是3.2.0,那么我们应该下载hadoop-aws:3.2.0来匹配。
winutils.exe必须与 Hadoop 版本完全相同,例如3.2.0. 请注意,winutils 版本很少。因此,我们必须仔细选择 PySpark/Hadoop 版本,以便存在匹配的 winutils 版本。某些 PySpark/Hadoop 版本没有相应的 winutils 版本,因此无法在 Windows 上使用。
aws-java-sdk-bundle必须与我们上面的选择兼容hadoop-aws。例如,hadoop-aws:3.2.0depends ,可以在这里aws-java-sdk-bundle:1.11.375验证。
考虑到上述限制,以下是在 Windows 上安装支持 S3A 的 PySpark 的可靠算法:
winutils.exe 在这里查找最新的可用版本。在撰写本文时,它是3.2.0. 将其放置在C:/hadoop/bin. 将环境变量设置HADOOP_HOME为C:/hadoop并(重要!)添加%HADOOP_HOME%/bin到PATH.
查找使用等于上述 Hadoop 版本的 PySpark 的最新可用版本,例如3.2.0。这可以通过跨每个发布标签浏览 PySpark 的文件来确定pom.xml。在撰写本文时,它是3.1.3.
aws-java-sdk-bundle找到需要的版本hadoop-aws。例如,如果我们正在使用hadoop-aws:3.2.0,那么我们可以使用此页面。在撰写本文时,它是1.11.375.
创建 venv 并安装步骤 2 中的 PySpark 版本。
python -m venv .venv
source .venv/Scripts/activate
pip install pyspark==3.1.3
Run Code Online (Sandbox Code Playgroud)
cd .venv/Lib/site-packages/pyspark/jars
ls -l | grep hadoop
curl -O https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-aws/3.2.0/hadoop-aws-3.2.0.jar
curl -O https://repo1.maven.org/maven2/com/amazonaws/aws-java-sdk-bundle/1.11.375/aws-java-sdk-bundle-1.11.375.jar
Run Code Online (Sandbox Code Playgroud)
cd C:/hadoop/bin
curl -O https://raw.githubusercontent.com/cdarlint/winutils/master/hadoop-3.2.0/bin/winutils.exe
curl -O https://raw.githubusercontent.com/cdarlint/winutils/master/hadoop-3.2.0/bin/hadoop.dll
Run Code Online (Sandbox Code Playgroud)
要验证您的设置,请尝试运行以下脚本。
import pyspark
spark = (pyspark.sql.SparkSession.builder
.appName('my_app')
.master('local[*]')
.config('spark.hadoop.fs.s3a.access.key', 'secret')
.config('spark.hadoop.fs.s3a.secret.key', 'secret')
.getOrCreate())
# Test reading from S3.
df = spark.read.csv('s3a://my-bucket/path/to/input/file.csv')
print(df.head(3))
# Test writing to S3.
df.write.csv('s3a://my-bucket/path/to/output')
Run Code Online (Sandbox Code Playgroud)
您需要相应地替换您的 AWS 密钥和 S3 路径。
如果您最近更新了操作系统环境变量,例如
HADOOP_HOME和PATH,您可能需要关闭并重新打开 VSCode 才能反映这一情况。
| 归档时间: |
|
| 查看次数: |
9726 次 |
| 最近记录: |