在处理了数以百万计的事件/数据之后,哪里有存储信息的最佳位置,以说有价值可以节省数百万个事件?我看到提交 Parquet格式的提交已关闭拉取请求,但是,默认是HDFS?我关心的是保存(在哪里?)如果检索数据很容易(快!)?
Apache Flink没有特定的存储引擎或格式.存储Flink计算结果的最佳位置取决于您的用例.
根据这些问题的答案,您可以选择各种存储后端,例如 - 用于批量访问的Apache HDFS(具有不同的存储格式,如Parquet,ORC,自定义二进制文件) - Apache Kafka,如果您想以数据流的形式访问数据 - 一个键值存储,如Apache HBase和Apache Cassandra,用于点数据访问 - 一个数据库,如MongoDB,MySQL,......
Flink为大多数这些系统提供了OutputFormats(一些通过Hadoop OutputFormats的包装器)."最佳"系统取决于您的使用案例.
| 归档时间: |
|
| 查看次数: |
1297 次 |
| 最近记录: |