如何在 KAFKA 的 Snowflake 连接器中使用连续流数据

Question

如何在 KAFKA 的 Snowflake 连接器中使用连续流数据

Aus*_*son 5 snowflake-cloud-data-platform

任何人都可以帮助我消耗流式传输的连续数据中的数据。主题的雪花连接器中应该给出什么？

因为我能够通过具有所需主题名称的单个表数据来填充数据。但我需要将连续数据流捕获到表中。

Answer 1

从文档中：

Kafka连接器完成以下过程来订阅Kafka主题并创建Snowflake对象：

Kafka 连接器根据通过 Kafka 配置文件或命令行（或 Confluence 控制中心；仅限 Confluence）提供的配置信息订阅一个或多个 Kafka 主题。

连接器为每个主题创建以下对象：

一个内部阶段用于临时存储每个主题的数据文件。

一个管道用于摄取每个主题分区的数据文件。

每个主题一张表。如果为每个主题指定的表不存在，连接器将创建它；否则，连接器会在现有表中创建 RECORD_CONTENT 和 RECORD_METADATA 列，并验证其他列是否可为空（如果不是，则生成错误）。

摄取过程如下：

一个或多个应用程序将 JSON 或 Avro 记录发布到 Kafka 集群。这些记录被分成一个或多个主题分区。

Kafka 连接器缓冲来自 Kafka 主题的消息。当达到阈值（时间或内存或消息数量）时，连接器会将消息写入内部阶段的临时文件中。连接器触发 Snowpipe 摄取临时文件。Snowpipe 将指向数据文件的指针复制到队列中。

Snowflake提供的虚拟仓库通过为Kafka主题分区创建的管道将数据从暂存文件加载到目标表（即主题配置文件中指定的表）。

连接器监视Snowpipe，并在确认文件数据已加载到表中后删除内部阶段的每个文件。如果出现故障导致数据无法加载，连接器会将文件移动到表阶段并生成错误消息。

连接器重复步骤 2-4。

https://docs.snowflake.com/en/user-guide/kafka-connector-overview.html

归档时间：	4 年前
查看次数：	716 次
最近记录：	4 年前