java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatistics

Question

java.lang.NoClassDefFoundError:org/apache/hadoop/fs/StorageStatistics

我试图从服务器运行一个简单的火花到s3应用程序,但我一直得到以下错误,因为服务器安装了hadoop 2.7.3,看起来它不包括GlobalStorageStatistics类.http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/api/org/apache/hadoop/fs/GlobalStorageStatistics.html.我在我的pom中定义了hadoop 2.8.x .xml文件但尝试通过在本地运行来测试它.

如果我必须使用hadoop 2.7.3,我该如何让它忽略搜索或包含该类的解决方法选项？

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StorageStatistics
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.hadoop.conf.Configuration.getClassByNameOrNull(Configuration.java:2134)
    at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2099)
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2193)
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2654)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
    at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
    at org.apache.spark.sql.execution.datasources.DataSource.hasMetadata(DataSource.scala:301)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:344)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:441)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:425)
    at com.ibm.cos.jdbc2DF$.main(jdbc2DF.scala:153)
    at com.ibm.cos.jdbc2DF.main(jdbc2DF.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:738)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.StorageStatistics
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 28 more

Run Code Online (Sandbox Code Playgroud)

Answer 1

Ste*_*ran 11

你不能混合使用Hadoop并希望工作正常.它不仅仅是hadoop-common和hadoop-aws内部类之间的紧密耦合,而是像hadoop-aws模块构建它的amazon-aws SDK的特定版本.

除非您可以隔离类路径,否则您需要将POM回滚到2.7.3.

抱歉

Answer 2

小智 10

我发现史蒂夫上面的回答非常有帮助。他的信息启发了我在这里写文章。我将相关部分复制如下。我的答案是针对 Python/Windows 上下文定制的，但我怀疑大多数观点在 JVM/Linux 上下文中仍然相关。

依赖关系

这个答案是针对 Python 开发人员的，因此假设我们将通过 pip 间接安装 Apache Spark。当 pip 安装 PySpark 时，它会自动收集大多数依赖项，如中所示.venv/Lib/site-packages/pyspark/jars。但是，要启用S3A 连接器，我们必须手动跟踪以下依赖项：

JAR 文件： hadoop-aws
JAR 文件： aws-java-sdk-bundle
可执行文件: winutils.exe(和hadoop.dll) <-- 仅在 Windows 中需要

约束条件

假设我们通过 pip 安装 Spark，我们无法直接选择 Hadoop 版本。我们只能选择PySpark版本，例如pip install pyspark==3.1.3，这将间接确定Hadoop版本。例如，PySpark3.1.3映射到 Hadoop 3.2.0。
所有 Hadoop JAR 必须具有完全相同的版本，例如3.2.0. 使用验证这一点cd pyspark/jars && ls -l | grep hadoop。请注意，它pip install pyspark自动包含了一些 Hadoop JAR。因此，如果这些 Hadoop JAR 是3.2.0，那么我们应该下载hadoop-aws:3.2.0来匹配。
winutils.exe必须与 Hadoop 版本完全相同，例如3.2.0. 请注意，winutils 版本很少。因此，我们必须仔细选择 PySpark/Hadoop 版本，以便存在匹配的 winutils 版本。某些 PySpark/Hadoop 版本没有相应的 winutils 版本，因此无法在 Windows 上使用。
aws-java-sdk-bundle必须与我们上面的选择兼容hadoop-aws。例如，hadoop-aws:3.2.0depends ，可以在这里aws-java-sdk-bundle:1.11.375验证。

指示

考虑到上述限制，以下是在 Windows 上安装支持 S3A 的 PySpark 的可靠算法：

winutils.exe 在这里查找最新的可用版本。在撰写本文时，它是3.2.0. 将其放置在C:/hadoop/bin. 将环境变量设置HADOOP_HOME为C:/hadoop并（重要！）添加%HADOOP_HOME%/bin到PATH.
查找使用等于上述 Hadoop 版本的 PySpark 的最新可用版本，例如3.2.0。这可以通过跨每个发布标签浏览 PySpark 的文件来确定pom.xml。在撰写本文时，它是3.1.3.
aws-java-sdk-bundle找到需要的版本hadoop-aws。例如，如果我们正在使用hadoop-aws:3.2.0，那么我们可以使用此页面。在撰写本文时，它是1.11.375.
创建 venv 并安装步骤 2 中的 PySpark 版本。

python -m venv .venv
source .venv/Scripts/activate
pip install pyspark==3.1.3

Run Code Online (Sandbox Code Playgroud)

将 AWS JAR 下载到 PySpark 的 JAR 目录中：

cd .venv/Lib/site-packages/pyspark/jars
ls -l | grep hadoop
curl -O https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-aws/3.2.0/hadoop-aws-3.2.0.jar
curl -O https://repo1.maven.org/maven2/com/amazonaws/aws-java-sdk-bundle/1.11.375/aws-java-sdk-bundle-1.11.375.jar

Run Code Online (Sandbox Code Playgroud)

下载winutils：

cd C:/hadoop/bin
curl -O https://raw.githubusercontent.com/cdarlint/winutils/master/hadoop-3.2.0/bin/winutils.exe
curl -O https://raw.githubusercontent.com/cdarlint/winutils/master/hadoop-3.2.0/bin/hadoop.dll

Run Code Online (Sandbox Code Playgroud)

测试

要验证您的设置，请尝试运行以下脚本。

import pyspark

spark = (pyspark.sql.SparkSession.builder
    .appName('my_app')
    .master('local[*]')
    .config('spark.hadoop.fs.s3a.access.key', 'secret')
    .config('spark.hadoop.fs.s3a.secret.key', 'secret')
    .getOrCreate())

# Test reading from S3.
df = spark.read.csv('s3a://my-bucket/path/to/input/file.csv')
print(df.head(3))

# Test writing to S3.
df.write.csv('s3a://my-bucket/path/to/output')

Run Code Online (Sandbox Code Playgroud)

您需要相应地替换您的 AWS 密钥和 S3 路径。

如果您最近更新了操作系统环境变量，例如HADOOP_HOME和PATH，您可能需要关闭并重新打开 VSCode 才能反映这一情况。

归档时间：	8 年，8 月前
查看次数：	9726 次
最近记录：	7 年，4 月前