Apache Beam TextIO glob 获取原始文件名

Question

Apache Beam TextIO glob 获取原始文件名

Tob*_*art 3 java clob google-cloud-dataflow apache-beam

我已经设置了管道。我必须解析数百个 *.gz 文件。因此 glob 效果很好。

但我需要当前处理的文件的原始名称，因为我想将结果文件命名为原始文件。

有人能帮我一下吗？

这是我的代码。

@Default.String(LOGS_PATH + "*.gz")
String getInputFile();
void setInputFile(String value);


    TextIO.Read read = TextIO.read().withCompressionType(TextIO.CompressionType.GZIP).from(options.getInputFile());
        read.getName();

        p.apply("ReadLines", read).apply(new CountWords())
         .apply(MapElements.via(new FormatAsTextFn()))
         .apply("WriteCounts", TextIO.write().to(WordCountOptions.LOGS_PATH + "_" + options.getOutput()));

    p.run().waitUntilFinish();

Run Code Online (Sandbox Code Playgroud)

Answer 1

jkf*_*kff 5

从 Beam 2.2 开始，可以使用FileIO.match()、FileIO.read()和自定义代码的组合来读取文本行。您已经可以在 HEAD 中使用它，或者您可以等到 2.2 版本最终确定（目前正在进行中）。

PCollection<KV<String, String>> filesAndLines = 
  p.apply(FileIO.match().filepattern(...))
   .apply(FileIO.read())
   .apply(ParDo.of(new DoFn<ReadableFile, KV<String, String>>() {
     @ProcessElement
     public void process(ProcessContext c) {
       ReadableFile f = c.element();
       String filename = f.getMetadata().resourceId().toString();
       String line;
       try (BufferedReader r = new BufferedReader(Channels.newInputStream(f.open()))) {
         while ((line = r.readLine()) != null) {
           c.output(KV.of(filename, line));
         }
       }
     }
   }));

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，1 月前
查看次数：	2213 次
最近记录：	8 年前