如何使用 Spark Core API 读取 Parquet 文件?

Sha*_*kar 6 java apache-spark parquet

如何使用 Spark Core API 读取 Parquet 文件?

我知道使用 Spark SQL 有一些方法可以读取镶木地板文件。但是我们不能在我们的项目中使用 Spark SQL。

我们是否必须使用newAPIHadoopFile方法JavaSparkContext来做到这一点?

我正在使用 Java 来实现 Spark Job。

小智 2

使用下面的代码:

SparkSession spark = SparkSession.builder().master("yarn").appName("Application").enableHiveSupport().getOrCreate();
Dataset<Row> ds = spark.read().parquet(filename);
Run Code Online (Sandbox Code Playgroud)