如何从RDD中的所有文件中删除标题,其中RDD = sc.textFile("s3n://bucket/*.csv")?

Dam*_*jar 3 csv header amazon-s3 apache-spark rdd

我试图想到最好的方法,但是,我无法想到一种方法,不包括将所有文件中的标题读入数组,然后从这些标题中过滤RDD.

有更简单的方法吗?

注意:我正在读取S3存储桶中的所有csv文件,并且所有这些文件都有不同的标头.

Dan*_*pov 5

一种选择是使用SparkSQL,它可以加载CSV并忽略标题.看看:https: //github.com/databricks/spark-csv

header:当设置为true时,第一行文件将用于命名列,不会包含在数据中.所有类型都将被假定为字符串.默认值为false.