小编Bla*_*ack的帖子

Parquet VS 数据库

我试图了解以下两者中哪一个是更好的选择,特别是在 Spark 环境中:

  1. 将 parquet 文件直接加载到数据框中并访问数据(1TB 数据表)
  2. 使用任何数据库来存储和访问数据。

我正在研究数据管道设计,并试图了解上述两个选项中的哪一个将产生更优化的解决方案。

apache-spark parquet

7
推荐指数
1
解决办法
6695
查看次数

AWS DMS - MYSQL 上的 CDC 作为源端点的微秒精度

我使用 AWS DMS 从 MYSQL 作为源终端节点和 S3 作为目标终端节点迁移数据。
我想跟踪源更新,因此在配置过程中,我启用了TimestampColumnName属性(列名称:event_timestamp)。
在结果(如下所列)中,我获得了记录/事件的时间戳,但不是微秒精度。

我想要微秒精度在此基础上构建序列逻辑。
我已经研究了源端点和目标的属性,但没有得到期望的结果。这是示例输出:

在此输入图像描述

有人可以看一下并建议我是否缺少任何财产。
输出格式:对于我在 S3 中的文件来说,它是 parquet。

mysql database amazon-s3 amazon-web-services aws-dms

5
推荐指数
1
解决办法
3775
查看次数