java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatistics

hor*_*01d 3 hadoop apache-spark

我试图从服务器运行一个简单的火花到s3应用程序,但我一直得到以下错误,因为服务器安装了hadoop 2.7.3,看起来它不包括GlobalStorageStatistics类.http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/api/org/apache/hadoop/fs/GlobalStorageStatistics.html.我在我的pom中定义了hadoop 2.8.x .xml文件但尝试通过在本地运行来测试它.

如果我必须使用hadoop 2.7.3,我该如何让它忽略搜索或包含该类的解决方法选项?

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StorageStatistics
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.hadoop.conf.Configuration.getClassByNameOrNull(Configuration.java:2134)
    at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2099)
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2193)
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2654)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
    at org.apache.spark.sql.execution.datasources.DataSource.hasMetadata(DataSource.scala:301)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:344)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:441)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:425)
    at com.ibm.cos.jdbc2DF$.main(jdbc2DF.scala:153)
    at com.ibm.cos.jdbc2DF.main(jdbc2DF.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:738)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.StorageStatistics
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 28 more
Run Code Online (Sandbox Code Playgroud)

Ste*_*ran 11

你不能混合使用Hadoop并希望工作正常.它不仅仅是hadoop-common和hadoop-aws内部类之间的紧密耦合,而是像hadoop-aws模块构建它的amazon-aws SDK的特定版本.

除非您可以隔离类路径,否则您需要将POM回滚到2.7.3.

抱歉


小智 10

我发现史蒂夫上面的回答非常有帮助。他的信息启发了我在这里写文章。我将相关部分复制如下。我的答案是针对 Python/Windows 上下文定制的,但我怀疑大多数观点在 JVM/Linux 上下文中仍然相关。

依赖关系

这个答案是针对 Python 开发人员的,因此假设我们将通过 pip 间接安装 Apache Spark。当 pip 安装 PySpark 时,它会自动收集大多数依赖项,如 中所示.venv/Lib/site-packages/pyspark/jars。但是,要启用S3A 连接器,我们必须手动跟踪以下依赖项:

  • JAR 文件: hadoop-aws
  • JAR 文件: aws-java-sdk-bundle
  • 可执行文件: winutils.exe(和hadoop.dll) <-- 仅在 Windows 中需要

约束条件

  • 假设我们通过 pip 安装 Spark,我们无法直接选择 Hadoop 版本。我们只能选择PySpark版本,例如pip install pyspark==3.1.3,这将间接确定Hadoop版本。例如,PySpark3.1.3映射到 Hadoop 3.2.0

  • 所有 Hadoop JAR 必须具有完全相同的版本,例如3.2.0. 使用 验证这一点cd pyspark/jars && ls -l | grep hadoop。请注意,它pip install pyspark自动包含了一些 Hadoop JAR。因此,如果这些 Hadoop JAR 是3.2.0,那么我们应该下载hadoop-aws:3.2.0来匹配。

  • winutils.exe必须与 Hadoop 版本完全相同,例如3.2.0. 请注意,winutils 版本很少。因此,我们必须仔细选择 PySpark/Hadoop 版本,以便存在匹配的 winutils 版本。某些 PySpark/Hadoop 版本没有相应的 winutils 版本,因此无法在 Windows 上使用。

  • aws-java-sdk-bundle必须与我们上面的选择兼容hadoop-aws。例如,hadoop-aws:3.2.0depends ,可以在这里aws-java-sdk-bundle:1.11.375验证。

指示

考虑到上述限制,以下是在 Windows 上安装支持 S3A 的 PySpark 的可靠算法:

  1. winutils.exe 在这里查找最新的可用版本。在撰写本文时,它是3.2.0. 将其放置在C:/hadoop/bin. 将环境变量设置HADOOP_HOMEC:/hadoop并(重要!)添加%HADOOP_HOME%/binPATH.

  2. 查找使用等于上述 Hadoop 版本的 PySpark 的最新可用版本,例如3.2.0。这可以通过跨每个发布标签浏览 PySpark 的文件来确定pom.xml。在撰写本文时,它是3.1.3.

  3. aws-java-sdk-bundle找到需要的版本hadoop-aws。例如,如果我们正在使用hadoop-aws:3.2.0,那么我们可以使用此页面。在撰写本文时,它是1.11.375.

  4. 创建 venv 并安装步骤 2 中的 PySpark 版本。

python -m venv .venv
source .venv/Scripts/activate
pip install pyspark==3.1.3
Run Code Online (Sandbox Code Playgroud)
  1. 将 AWS JAR 下载到 PySpark 的 JAR 目录中:
cd .venv/Lib/site-packages/pyspark/jars
ls -l | grep hadoop
curl -O https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-aws/3.2.0/hadoop-aws-3.2.0.jar
curl -O https://repo1.maven.org/maven2/com/amazonaws/aws-java-sdk-bundle/1.11.375/aws-java-sdk-bundle-1.11.375.jar
Run Code Online (Sandbox Code Playgroud)
  1. 下载winutils:
cd C:/hadoop/bin
curl -O https://raw.githubusercontent.com/cdarlint/winutils/master/hadoop-3.2.0/bin/winutils.exe
curl -O https://raw.githubusercontent.com/cdarlint/winutils/master/hadoop-3.2.0/bin/hadoop.dll
Run Code Online (Sandbox Code Playgroud)

测试

要验证您的设置,请尝试运行以下脚本。

import pyspark

spark = (pyspark.sql.SparkSession.builder
    .appName('my_app')
    .master('local[*]')
    .config('spark.hadoop.fs.s3a.access.key', 'secret')
    .config('spark.hadoop.fs.s3a.secret.key', 'secret')
    .getOrCreate())

# Test reading from S3.
df = spark.read.csv('s3a://my-bucket/path/to/input/file.csv')
print(df.head(3))

# Test writing to S3.
df.write.csv('s3a://my-bucket/path/to/output')
Run Code Online (Sandbox Code Playgroud)

您需要相应地替换您的 AWS 密钥和 S3 路径。

如果您最近更新了操作系统环境变量,例如HADOOP_HOMEPATH,您可能需要关闭并重新打开 VSCode 才能反映这一情况。