小编Wou*_*ing的帖子

Spark 2.x + Tika: java.lang.NoSuchMethodError: org.apache.commons.compress.archivers.ArchiveStreamFactory.detect

我正在尝试解决 Apache Tika (>v 1.14) 解析作业的 spark-submit 类路径运行时问题。问题似乎涉及 spark-submit 类路径与我的 uber-jar。

平台:CDH 5.15(Spark 2.3 通过 CDH 文档添加)和 CDH 6(Spark 2.2 捆绑在 CDH 6 中)

我试过/评论:

(Cloudera) spark-submit 在哪里查找 Jar 文件?

(stackoverflow) 解决依赖关系问题在 apache-spark

(stackoverflow) Apache Tika ArchiveStreamFactory.detect 错误

强调:

  • Java 8 / Scala 2.11
  • 我正在构建一个 uber-jar 并通过 spark-submit 调用该 uber-jar
  • 我已经尝试将 --jars 选项添加到 spark-submit 调用(请参阅本文的进一步内容)
  • 我尝试将 --conf spark.driver.userClassPathFirst=true && --conf spark.executor.userClassPathFirst=true 添加到 spark-submit 调用(请参阅本文的进一步内容):

如果我将 --conf 标志包含在 spark-submit 中,结果:

$ spark-submit --master local[*] --class com.example.App --conf spark.executor.userClassPathFirst=true ./target/uber-tikaTest-1.19.jar …
Run Code Online (Sandbox Code Playgroud)

apache-tika apache-spark cloudera-cdh

5
推荐指数
1
解决办法
1156
查看次数

标签 统计

apache-spark ×1

apache-tika ×1

cloudera-cdh ×1