小编myt*_*hic的帖子

Caused by: org.apache.parquet.io.ParquetDecodingException: Can not read value at 1 in block 0 
 in file s3a://<path to parquet file>
at org.apache.parquet.hadoop.InternalParquetRecordReader.nextKeyValue(InternalParquetRecordReader.ja va:251)

App > at org.apache.parquet.hadoop.ParquetReader.read(ParquetReader.java:132)

App > at org.apache.parquet.hadoop.ParquetReader.read(ParquetReader.java:136)

 App > at com.uber.hoodie.func.ParquetReaderIterator.hasNext(ParquetReaderIterator.java:45)

App > at com.uber.hoodie.common.util.queue.IteratorBasedQueueProducer.produce(IteratorBasedQueueProducer.java:44)

App > at com.uber.hoodie.common.util.queue.BoundedInMemoryExecutor.lambda$null$0(BoundedInMemoryExecutor.java:94)

App > at java.util.concurrent.FutureTask.run(FutureTask.java:266)

 App > at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)

App > ... 4 more

App > Caused by: java.lang.UnsupportedOperationException:org.apache.parquet.avro.AvroConverters$FieldLongConverter

Run Code Online (Sandbox Code Playgroud)

我无法理解。我跟踪了几个线程并在我的 Spark confs 中设置 --conf "spark.sql.parquet.writeLegacyFormat=true" 。但即使这样也无济于事。

apache-spark parquet spark-streaming hoodie apache-hudi

myt*_*hic

2020 05-31

2
推荐指数

1
解决办法

5149
查看次数

仅展平 Scala Spark 数据帧中的最深级别

我有一个 Spark 作业，它有一个具有以下值的 DataFrame：

{
  "id": "abchchd",
  "test_id": "ndsbsb",
  "props": {
    "type": {
      "isMale": true,
      "id": "dd",
      "mcc": 1234,
      "name": "Adam"
    }
  }
}

{
  "id": "abc",
  "test_id": "asf",
  "props": {
    "type2": {
      "isMale": true,
      "id": "dd",
      "mcc": 12134,
      "name": "Perth"
    }
  }
}

Run Code Online (Sandbox Code Playgroud)

我想优雅地将它展平（因为没有未知的键和类型等），这样道具仍然是一个，struct但里面的所有东西都被展平了（不管嵌套的级别如何）

所需的输出是：

{
  "id": "abchchd",
  "test_id": "ndsbsb",
  "props": {
    "type.isMale": true,
    "type.id": "dd",
    "type.mcc": 1234,
    "type.name": "Adam"
  }
}

{
  "id": "abc",
  "test_id": "asf",
  "props": {
      "type2.isMale": true,
      "type2.id": "dd",
      "type2.mcc": 12134,
      "type2.name": "Perth" …

Run Code Online (Sandbox Code Playgroud)

json scala flatten apache-spark apache-spark-sql

myt*_*hic

2020 01-14

1
推荐指数

1
解决办法

333
查看次数

将多个 Spark 行合并为一行

我有一个数据框，如下所示。除了字段之外，对应的所有值id都是相同的mappingcol。

+--------------------+----------------+--------------------+-------+
|misc                |fruit           |mappingcol          |id     |
+--------------------+----------------+--------------------+-------+
|ddd                 |apple           |Map("name"->"Sameer"|     1 |
|ref                 |banana          |Map("name"->"Riyazi"|     2 |
|ref                 |banana          |Map("lname"->"Nikki"|     2 |
|ddd                 |apple           |Map("lname"->"tenka"|     1 |
+--------------------+----------------+--------------------+-------+

Run Code Online (Sandbox Code Playgroud)

我想以这样的方式合并具有同一行的行，以便我精确地得到一行，并且需要合并id的值。mappingcol输出应如下所示：

+--------------------+----------------+--------------------+-------+
|misc                |fruit           |mappingcol          |id     |
+--------------------+----------------+--------------------+-------+
|ddd                 |apple           |Map("name"->"Sameer"|     1 |
|ref                 |banana          |Map("name"->"Riyazi"|     2 |
+--------------------+----------------+--------------------+-------+

Run Code Online (Sandbox Code Playgroud)

=mappingcol的值将是：id1

Map(
"name" -> "Sameer",
"lname" -> "tenka"
)

Run Code Online (Sandbox Code Playgroud)

我知道地图可以使用++运算符合并，所以这不是我担心的。我只是无法理解如何合并行，因为如果我使用 a groupBy，我就没有任何东西可以聚合行。

sql scala apache-spark apache-spark-sql

myt*_*hic

lucky-day

1
推荐指数

1
解决办法

7534
查看次数

标签统计

apache-spark ×3

apache-spark-sql ×2

scala ×2

apache-hudi ×1

apache-kafka ×1

avro ×1

dataframe ×1

flatten ×1

hoodie ×1

json ×1

kafka-consumer-api ×1

kafka-topic ×1

pandas ×1

parquet ×1

python ×1

schema ×1

spark-streaming ×1

sql ×1

一个kafka topic可以处理多少个消费者群体？

Python - 为 csv/xls 文件生成 avro 架构

Spark 流 - 导致：org.apache.parquet.io.ParquetDecodingException：无法读取文件中块 0 中 1 处的值

仅展平 Scala Spark 数据帧中的最深级别

将多个 Spark 行合并为一行

标签 统计

小编myt_hic的帖子

标签统计