小编Jas*_*ans的帖子

Apache Parquet Java API的文档?

我想使用Apache的parquet-mr项目以Java编程方式读/写Parquet文件.我似乎无法找到有关如何使用此API的任何文档(除了浏览源代码并查看它是如何使用的) - 只是想知道是否存在任何此类文档?

parquet

7
推荐指数
3
解决办法
7428
查看次数

有没有办法将Spark的Dataset.show()方法的输出作为字符串?

Spark Dataset.show()方法对于查看数据集的内容非常有用,特别是对于调试(它打印出格式良好的表).据我所知,它只打印到控制台,但能够将其作为一个字符串.例如,能够将其写入日志,或者在使用IntelliJ进行调试时将其视为表达式的结果会很好.

有没有办法得到Dataset.show()字符串的输出?

apache-spark apache-spark-sql

6
推荐指数
1
解决办法
1694
查看次数

在SparkSQL中使用Avro模式和Parquet格式进行读取/写入

我正在尝试从SparkSQL编写和读取Parquet文件。出于架构演变的原因,我想在读写中使用Avro架构。

我的理解是,这可以在Spark外部(或在Spark内部手动使用),例如使用AvroParquetWriter和Avro的通用API。但是,我想使用SparkSQL的write()和read()方法(与DataFrameWriter和DataFrameReader一起使用),并且与SparkSQL集成良好(我将编写和读取Dataset的方法)。

我一生都无法弄清楚该怎么做,并且想知道这是否可能。SparkSQL拼花格式似乎唯一支持的选项是“压缩”和“ mergeSchema”,即没有用于指定备用模式格式或备用模式的选项。换句话说,似乎没有办法使用SparkSQL API使用Avro模式读取/写入Parquet文件。但是也许我只是想念一些东西?

为了澄清,我也理解这基本上只是在写时将Avro模式添加到Parquet元数据中,而在读时将添加一个翻译层(Parquet格式-> Avro模式-> SparkSQL内部格式),但将特别允许我为缺少的列添加默认值(Avro模式支持但Parquet模式不支持)。

另外,我不是在寻找一种将Avro转换为Parquet或Parquet到Avro的方法(而是一种将它们一起使用的方法),并且我不是在寻找一种在SparkSQL中读取/写入普通Avro的方法。使用databricks / spark-avro)。

avro apache-spark parquet apache-spark-sql

5
推荐指数
1
解决办法
1281
查看次数

Spark在读取有序文件时是否保留记录顺序?

我正在使用Spark读取记录(在本例中为csv文件)并处理它们.这些文件已按某种顺序排列,但任何列都不反映此顺序(将其视为时间序列,但没有任何时间戳列 - 每行只是文件中的相对顺序).我想在我的Spark处理中使用这个排序信息,比如将行与前一行进行比较.我无法明确订购记录,因为没有订购列.

Spark是否维护从文件中读取的记录顺序?或者,有没有办法从Spark访问记录的文件顺序?

apache-spark

5
推荐指数
2
解决办法
2537
查看次数

标签 统计

apache-spark ×3

apache-spark-sql ×2

parquet ×2

avro ×1