使用BigQuery Storage API（测试版）启动和读取多个流

Question

使用BigQuery Storage API（测试版）启动和读取多个流

BigQuery Storage API（https://googleapis.github.io/google-cloud-python/latest/bigquery_storage/gapic/v1beta1/api.html）对于从BigQuery表中读取数据几乎比标准BigQuery快10倍，非常有用API。为了使其更快，它支持多个读取流，每个读取流从相关表中读取动态分配的行集。

我的问题是：尽管您可能请求多个流，但是请求后分配的流不在您的控制范围内。因此，我无法启动1个以上的流。

我正在读取的数据包括3列和600万行，如下所示。我将创建到控制台的流总数打印出来。

from google.cloud import bigquery_storage_v1beta1

project_id = 'myproject'
client = bigquery_storage_v1beta1.BigQueryStorageClient()

table_ref = bigquery_storage_v1beta1.types.TableReference()
table_ref.project_id = "bigquery-public-data"
table_ref.dataset_id = "usa_names"
table_ref.table_id = "usa_1910_current"

read_options = bigquery_storage_v1beta1.types.TableReadOptions()
read_options.selected_fields.append("year")
read_options.selected_fields.append("name")
read_options.selected_fields.append("number")

# I request 3 streams to be created!
requested_streams = 3  

parent = "projects/{}".format(project_id)
session = client.create_read_session(
    table_ref, parent, table_modifiers=modifiers, read_options=read_options, 
    requested_streams=requested_streams
)  

response = client.batch_create_read_session_streams(session, requested_streams)

# I see only 1 stream being created.
print("Streams created: " + str(len(session.streams)))
print("Stream names array: " + str(session.streams))


reader = client.read_rows(
    bigquery_storage_v1beta1.types.StreamPosition(stream=session.streams[0])
)

rows = reader.rows(session)

names = set()

import time
start = time.time()
#---------------------------------------------------
i=0
for row in rows:
    i += 1
    names.add(row["name"])
    if i > 6000000:
        break
#---------------------------------------------------    
end = time.time()
print(end - start)
print("Got {} unique names and {} total rows.".format(len(names), i))

Run Code Online (Sandbox Code Playgroud)

我有几个问题：

1）我是否只看到1个流，因为多流实现不完整（API在Beta版本中）？

2）我是否只看到1个流，因为流分配算法的数据相对较小？600万行已经足够大了。

3）如果我要开始看到创建的多个流，那么API文档不会描述如何并行读取这些流。有关如何执行此操作的任何想法？

Answer 1

sho*_*man 3

问题是您正在读取的表只有一个可用的输入文件。虽然它有 600 万行，但数据具有高度可压缩性，因此数据只有一个后备列式文件。目前，存储 API 不会比这更精细地分割数据。

如果您检查从此表中进行 SELECT 的查询计划，您将看到相同的情况（只有一个输入）。

归档时间：	6 年，5 月前
查看次数：	168 次
最近记录：	6 年前