5 apache-spark parquet apache-spark-sql
我每天都会收到 100G 的文本文件,我希望创建一个可从 Spark 访问的高效“数据库”。我所说的“数据库”是指能够对数据执行快速查询(大约一年前),并每天增量添加数据,最好没有读锁。
假设我想使用 Spark SQL 和 parquet,实现此目的的最佳方法是什么?
请随意建议其他选择,但让我们假设我现在使用镶木地板,因为从我读到的内容来看,这将对其他许多人有所帮助。
我的0级设计
| 归档时间: |
|
| 查看次数: |
1348 次 |
| 最近记录: |