vsd*_*ing 5 performance etl elasticsearch apache-spark amazon-athena
我目前正在构建一个 ETL 管道,该管道将数据表(约 100+ GB)输出到下游交互式仪表板,允许动态过滤数据(基于预定义和索引过滤器)。
已经瞄准了使用PySpark /星火初始ETL阶段。接下来,将汇总这些处理过的数据(简单计数、平均值等),然后在交互式仪表板中进行可视化。
对于交互式查询部分,我想知道哪种工具最适合我的结构化和事务性数据(以 Parquet 格式存储)-
如果您知道更好的选择,请随意建议替代工具。
根据您提供的信息,我将做出几个假设:
浏览列出的选项
我还会研究Amazon Redshift。
如需进一步阅读,请阅读AWS 上的大数据分析选项。
正如 @Damien_The_Un believer 所建议的,您自己的原型设计和基准测试是无可替代的。
| 归档时间: |
|
| 查看次数: |
6834 次 |
| 最近记录: |