如何在 KAFKA 的 Snowflake 连接器中使用连续流数据

Aus*_*son 5 snowflake-cloud-data-platform

任何人都可以帮助我消耗流式传输的连续数据中的数据。主题的雪花连接器中应该给出什么?

因为我能够通过具有所需主题名称的单个表数据来填充数据。但我需要将连续数据流捕获到表中。

Rob*_*ong 2

从文档中:

Kafka连接器完成以下过程来订阅Kafka主题并创建Snowflake对象:

Kafka 连接器根据通过 Kafka 配置文件或命令行(或 Confluence 控制中心;仅限 Confluence)提供的配置信息订阅一个或多个 Kafka 主题。

连接器为每个主题创建以下对象:

一个内部阶段用于临时存储每个主题的数据文件。

一个管道用于摄取每个主题分区的数据文件。

每个主题一张表。如果为每个主题指定的表不存在,连接器将创建它;否则,连接器会在现有表中创建 RECORD_CONTENT 和 RECORD_METADATA 列,并验证其他列是否可为空(如果不是,则生成错误)。

摄取过程如下:

  1. 一个或多个应用程序将 JSON 或 Avro 记录发布到 Kafka 集群。这些记录被分成一个或多个主题分区。

  2. Kafka 连接器缓冲来自 Kafka 主题的消息。当达到阈值(时间或内存或消息数量)时,连接器会将消息写入内部阶段的临时文件中。连接器触发 Snowpipe 摄取临时文件。Snowpipe 将指向数据文件的指针复制到队列中。

  3. Snowflake提供的虚拟仓库通过为Kafka主题分区创建的管道将数据从暂存文件加载到目标表(即主题配置文件中指定的表)。

  4. 连接器监视Snowpipe,并在确认文件数据已加载到表中后删除内部阶段的每个文件。如果出现故障导致数据无法加载,连接器会将文件移动到表阶段并生成错误消息。

  5. 连接器重复步骤 2-4。

https://docs.snowflake.com/en/user-guide/kafka-connector-overview.html