小编vsd*_*ing的帖子

哪个是查询以 Parquet 格式存储的数据的更快(更好)工具 - Spark SQL、Athena 或 ElasticSearch?

我目前正在构建一个 ETL 管道,该管道将数据表(约 100+ GB)输出到下游交互式仪表板,允许动态过滤数据(基于预定义和索引过滤器)。

已经瞄准了使用PySpark /星火初始ETL阶段。接下来,将汇总这些处理过的数据(简单计数、平均值等),然后在交互式仪表板中进行可视化

对于交互式查询部分,我想知道哪种工具最适合我的结构化和事务性数据(以 Parquet 格式存储)-

  1. Spark SQL(内存动态查询)
  2. AWS Athena(无服务器 SQL 查询,基于 Presto)
  3. 弹性搜索(搜索引擎)
  4. Redis(键值数据库)

如果您知道更好的选择,请随意建议替代工具。

performance etl elasticsearch apache-spark amazon-athena

5
推荐指数
1
解决办法
6834
查看次数

在C中舍入浮动变量以显示最多2位精度

我有一个问题 - 对大多数人来说似乎很愚蠢,但我仍然是一个新手编码器.如何将浮点变量四舍五入显示最多只有2或3位数的精度?提前致谢

c floating-point-precision

1
推荐指数
1
解决办法
3940
查看次数