Spark 2.2非法模式组件:XXX java.lang.IllegalArgumentException:非法模式组件:XXX

Question

Spark 2.2非法模式组件:XXX java.lang.IllegalArgumentException:非法模式组件:XXX

Lee*_*Lee 10 scala apache-spark spark-dataframe

我正在尝试从Spark 2.1升级到2.2.当我尝试将数据帧读取或写入某个位置(CSV或JSON)时,我收到此错误:

Illegal pattern component: XXX
java.lang.IllegalArgumentException: Illegal pattern component: XXX
at org.apache.commons.lang3.time.FastDatePrinter.parsePattern(FastDatePrinter.java:282)
at org.apache.commons.lang3.time.FastDatePrinter.init(FastDatePrinter.java:149)
at org.apache.commons.lang3.time.FastDatePrinter.<init>(FastDatePrinter.java:142)
at org.apache.commons.lang3.time.FastDateFormat.<init>(FastDateFormat.java:384)
at org.apache.commons.lang3.time.FastDateFormat.<init>(FastDateFormat.java:369)
at org.apache.commons.lang3.time.FastDateFormat$1.createInstance(FastDateFormat.java:91)
at org.apache.commons.lang3.time.FastDateFormat$1.createInstance(FastDateFormat.java:88)
at org.apache.commons.lang3.time.FormatCache.getInstance(FormatCache.java:82)
at org.apache.commons.lang3.time.FastDateFormat.getInstance(FastDateFormat.java:165)
at org.apache.spark.sql.catalyst.json.JSONOptions.<init>(JSONOptions.scala:81)
at org.apache.spark.sql.catalyst.json.JSONOptions.<init>(JSONOptions.scala:43)
at org.apache.spark.sql.execution.datasources.json.JsonFileFormat.inferSchema(JsonFileFormat.scala:53)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:177)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$7.apply(DataSource.scala:177)
at scala.Option.orElse(Option.scala:289)
at org.apache.spark.sql.execution.datasources.DataSource.getOrInferFileFormatSchema(DataSource.scala:176)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:366)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
at org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:333)
at org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:279)

Run Code Online (Sandbox Code Playgroud)

我没有为dateFormat设置默认值,所以我不知道它来自哪里.

spark.createDataFrame(objects.map((o) => MyObject(t.source, t.table, o.partition, o.offset, d)))
    .coalesce(1)
    .write
    .mode(SaveMode.Append)
    .partitionBy("source", "table")
    .json(path)

Run Code Online (Sandbox Code Playgroud)

我仍然得到这个错误:

import org.apache.spark.sql.{SaveMode, SparkSession}
val spark = SparkSession.builder.appName("Spark2.2Test").master("local").getOrCreate()
import spark.implicits._
val agesRows = List(Person("alice", 35), Person("bob", 10), Person("jill", 24))
val df = spark.createDataFrame(agesRows).toDF();

df.printSchema
df.show

df.write.mode(SaveMode.Overwrite).csv("my.csv")

Run Code Online (Sandbox Code Playgroud)

这是架构:root | - name:string(nullable = true)| - age:long(nullable = false)

Answer 1

Lee*_*Lee 27

我找到了答案.

timestampFormat的默认值yyyy-MM-dd'T'HH:mm:ss.SSSXXX是非法参数.在编写数据帧时需要设置它.

修复是将其更改为ZZ,其中包括时区.

df.write
.option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ")
.mode(SaveMode.Overwrite)
.csv("my.csv")

Run Code Online (Sandbox Code Playgroud)

此外,如果您正在尝试读取文件:`df = spark.read.option('timestampFormat','yyyy/MM/dd HH:mm:ss ZZ').json(PATH_TO_FILE)` (4认同)

Answer 2

Mau*_*one 17

确保您使用的是commons-lang3的正确版本

<dependency>
  <groupId>org.apache.commons</groupId>
  <artifactId>commons-lang3</artifactId>
  <version>3.5</version>
</dependency>

Run Code Online (Sandbox Code Playgroud)

为什么 commons-lang3 在这里要做一些事情？ (2认同)
在CDH中，hive-exec-1.1.0-cdh5.15.1.jar还具有“ FastDateFormat”类，该类不支持组织的默认格式“ yyyy-MM-dd'T'HH：mm：ss.SSSXXX”。 apache.spark.sql.catalyst.json.JSONOptions。因此，请确保commons-lang3.3.5 jar在您的类路径中。在SBT中添加依赖项与compile选项。“ org.apache.commons”％“ commons-lang3”％“ 3.5”％“编译” (2认同)

归档时间：	8 年，9 月前
查看次数：	9053 次
最近记录：	6 年，8 月前