使用HDFS更改更新Hive外部表

sun*_*nny 5 hadoop hive bigdata hiveql

比方说,我从文件myFile.csv(位于HDFS中)创建了Hive外部表"myTable".

myFile.csv每天都在更改,然后我有兴趣每天更新一次"myTable".

是否有任何HiveQL查询告诉每天更新表?

谢谢.

PS

我想知道它是否与目录的工作方式相同:假设我从HDFS目录"myDir"创建Hive分区,当"myDir"包含10个文件时.第二天"myDIr"包含20个文件(添加了10个文件).我应该更新Hive分区吗?

Bal*_*man 6

Hive中基本上有两种类型的表.

一个是由hive仓库管理的托管表,无论何时创建表数据都将被复制到内部仓库.你can not have latest data in the query output.

其他是外部表,其中蜂巢will not copy its data to internal warehouse.

因此,无论何时在表上触发查询,它都会从文件中检索数据.

因此,您甚至可以在查询输出中获得最新数据.

That is one of the goals of external table.

您甚至可以删除表格,数据也不会丢失.