小编Ric*_*ZCO的帖子

Apache Beam：ReadFromText 与 ReadAllFromText

我正在运行 Apache Beam 管道，从 Google Cloud Storage 读取文本文件，对这些文件执行一些解析并将解析后的数据写入 Bigquery。

为了保持简短，这里忽略解析和 google_cloud_options，我的代码如下：（apache-beam 2.5.0 with GCP add-ons and Dataflow as runner）

p = Pipeline(options=options)

lines = p | 'read from file' >> 
beam.io.ReadFromText('some_gcs_bucket_path*')  |  \
    'parse xml to dict' >> beam.ParDo(
        beam.io.WriteToBigQuery(
            'my_table',
            write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND,
            create_disposition=beam.io.BigQueryDisposition.CREATE_IF_NEEDED)
    p.run()

Run Code Online (Sandbox Code Playgroud)

这运行良好并成功地将相关数据附加到我的 Bigquery 表中以获取少量输入文件。但是，当我将输入文件的数量增加到 +- 800k 时，出现错误：

“BoundedSource.split() 操作返回的 BoundedSource 对象的总大小大于允许的限制。”

我发现故障排除 apache 光束管道导入错误 [BoundedSource 对象大于允许的限制]建议使用 ReadAllFromText 而不是 ReadFromText。
但是，当我换出时，出现以下错误：

p = Pipeline(options=options)

lines = p | 'read from file' >> 
beam.io.ReadFromText('some_gcs_bucket_path*')  |  \
    'parse …

Run Code Online (Sandbox Code Playgroud)

dataflow google-cloud-platform apache-beam

Ric*_*ZCO

2018 09-25

2
推荐指数

1
解决办法

3402
查看次数

标签统计

apache-beam ×1

dataflow ×1

google-cloud-platform ×1

Apache Beam：ReadFromText 与 ReadAllFromText

标签 统计

小编Ric_ZCO的帖子

标签统计