我是 Hadoop 和学习 Hive 的新手。
在 Hadoop 权威指南第 3 版页号中。428 最后一段
我不明白下面关于 HIVE 中外部表的段落。
“一种常见的模式是使用外部表访问存储在 HDFS(由另一个进程创建)中的初始数据集,然后使用 Hive 转换将数据移动到托管 Hive 表中。”
谁能简单解释一下上面这句话的意思?
通常,初始数据集中的数据并不是以查询的最佳方式构建的。
您可能想要修改数据(例如修改某些列、添加列、进行聚合等)并以特定方式存储数据(分区/存储桶/排序等),以便查询从这些优化中受益。
| 归档时间: |
|
| 查看次数: |
6849 次 |
| 最近记录: |