Reg*_*sor 2 scala apache-spark apache-spark-sql
我在 S3 存储桶中有一堆具有这种模式的文件
myfile_2018_(0).tab
myfile_2018_(1).tab
myfile_2018_(2).tab
..
myfile_2018_(150).tab
Run Code Online (Sandbox Code Playgroud)
我想通过读取所有这些文件来创建一个 Spark Dataframe。如何创建此正则表达式模式并读取文件?
这些文件有标题。我正在使用 Scala 来完成这个任务。
只需指定如下的全局模式(假设它们位于同一文件夹中):
val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
13161 次 |
| 最近记录: |