跳过标题行 - 是否可以使用Cloud DataFlow?

Gra*_*ley 7 google-cloud-dataflow

我创建了一个Pipeline,它从GCS中的文件读取,转换它,最后写入BQ表.该文件包含标题行(字段).

有没有办法以编程方式设置"跳过的标题行数",就像加载时在BQ中可以做的那样?

要跳过的标题行数

Sam*_*ety 5

目前这是不可能的。听起来这里有两个潜在的请求:

  • 指定 BigQuery 导入的标题行的存在和跳过行为。
  • 指定 GCS 文本源应跳过标题行。

未来的工作可在https://issues.apache.org/jira/browse/BEAM-123中跟踪。

另外,与此同时,您可以向 ParDo 代码添加一个简单的过滤器以跳过标头。像这样的东西:

PCollection<X> rows = ...;
PCollection<X> nonHeaders =
   rows.apply(Filter.by(new MatchIfNonHeader()));
Run Code Online (Sandbox Code Playgroud)