Mun*_*esh 11 python zip hadoop apache-spark pyspark
我有多个zip文件包含两种类型的文件(A.csv和B.csv)
/data/jan.zip - >包含A.csv和B.csv
/data/feb.zip - >包含A.csv和B.csv
我想使用pyspark读取所有zip文件中所有A.csv文件的内容.
textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")
Run Code Online (Sandbox Code Playgroud)
有人能告诉我如何将A.csv文件的内容放入RDD吗?
Ram*_*eja -1
在这里,您想要递归读取 zip 文件中的所有 csv 文件。
val files = sc.CSVFiles("file://path/to/files/*.zip")
files.flatMap({case (name, content) =>
unzip(content)
})
def unzip(content: String): List[String] = {
...
}
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
4945 次 |
| 最近记录: |