Gra*_*ley 7 google-cloud-dataflow
我创建了一个Pipeline,它从GCS中的文件读取,转换它,最后写入BQ表.该文件包含标题行(字段).
有没有办法以编程方式设置"跳过的标题行数",就像加载时在BQ中可以做的那样?

目前这是不可能的。听起来这里有两个潜在的请求:
未来的工作可在https://issues.apache.org/jira/browse/BEAM-123中跟踪。
另外,与此同时,您可以向 ParDo 代码添加一个简单的过滤器以跳过标头。像这样的东西:
PCollection<X> rows = ...;
PCollection<X> nonHeaders =
rows.apply(Filter.by(new MatchIfNonHeader()));
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1351 次 |
| 最近记录: |