存储在Apache Flink中

Question

存储在Apache Flink中

在处理了数以百万计的事件/数据之后,哪里有存储信息的最佳位置,以说有价值可以节省数百万个事件？我看到提交 Parquet格式的提交已关闭拉取请求,但是,默认是HDFS？我关心的是保存(在哪里？)如果检索数据很容易(快!)？

Answer 1

Apache Flink没有特定的存储引擎或格式.存储Flink计算结果的最佳位置取决于您的用例.

你在运行批处理或流媒体工作吗？
你想对结果做什么？
您是否需要批量(全扫描),点或连续流式访问数据？
数据的格式是什么？扁平结构(关系),嵌套,blob,...

根据这些问题的答案,您可以选择各种存储后端,例如 - 用于批量访问的Apache HDFS(具有不同的存储格式,如Parquet,ORC,自定义二进制文件) - Apache Kafka,如果您想以数据流的形式访问数据 - 一个键值存储,如Apache HBase和Apache Cassandra,用于点数据访问 - 一个数据库,如MongoDB,MySQL,......

Flink为大多数这些系统提供了OutputFormats(一些通过Hadoop OutputFormats的包装器)."最佳"系统取决于您的使用案例.

归档时间：	10 年，9 月前
查看次数：	1297 次
最近记录：	10 年，9 月前