为什么我们需要将外部表移动到托管配置单元表?

Raj*_*Raj 5 hadoop hive

我是 Hadoop 和学习 Hive 的新手。

在 Hadoop 权威指南第 3 版页号中。428 最后一段

我不明白下面关于 HIVE 中外部表的段落。

“一种常见的模式是使用外部表访问存储在 HDFS(由另一个进程创建)中的初始数据集,然后使用 Hive 转换将数据移动到托管 Hive 表中。”

谁能简单解释一下上面这句话的意思?

dim*_*mah 4

通常,初始数据集中的数据并不是以查询的最佳方式构建的。
您可能想要修改数据(例如修改某些列、添加列、进行聚合等)并以特定方式存储数据(分区/存储桶/排序等),以便查询从这些优化中受益。