小编Bag_thi的帖子

HIVE 将覆盖插入到分区表中

我在分区表上运行了插入覆盖。在命令之后，例如创建以下分区。a,b,c,d,e

现在当我重新运行插入覆盖表时，但这次使用完全不同的数据集。比如说，在第二次插入之后，下面的分区被创建。f,g,h,i,j

问题 - 第二次插入的数据不会覆盖属于第一次插入的数据。第二次插入后，我仍然在 HDFS 中看到文件夹 a、b、c、d、e。但是当我通过 HIVE 查询它们时，分区 a,b,c,d,e 没有出现。

这是插入覆盖表的预期行为吗？或者我在这里遗漏了什么？

5
推荐指数

2
解决办法

4万
查看次数

Sqoop导入Null字符串

Null查询配置单元外部表时,值显示为"\ N".

下面是sqoop导入脚本:

sqoop import -libjars /usr/lib/sqoop/lib/tdgssconfig.jar,/usr/lib/sqoop/lib/terajdbc4.jar -Dmapred.job.queue.name = xxxxxx\--connect jdbc:teradata:// xxx .xx.xxx.xx/DATABASE = $ db,LOGMECH = LDAP --connection-manager org.apache.sqoop.teradata.TeradataConnManager\--username $ user --password $ pwd --query"

从$ db.xxx中选择col1,col2,col3

其中\ $ CONDITIONS"\ - null-string'\ N' - null-non-string'\ N'\ --fields-terminated-by'\t'--num-mappers 6\--split-by job_number\--delete-target-dir\--target-dir $ hdfs_loc

请告知应对脚本进行哪些更改,以便在查询外部配置单元表时将空值显示为空.

null hadoop hive teradata sqoop

5
推荐指数

2
解决办法

1万
查看次数

Sqoop导入按列数据类型拆分

sqoop import中Split by column的数据类型是否应该是数字数据类型(整数,bignint,数字)？不能是一个字符串？

3
推荐指数

1
解决办法

5947
查看次数

Hive Sort Merge Bucket Join

排序合并Bucket Join与Sort Merge Bucket Map join不同吗？如果是这样,应该添加什么提示以启用SMB加入？SMBM如何优于SMB加入？

将"设置hive.auto.convert.sortmerge.join = true"这个提示单独用于SMB加入吗？否则,还应包括以下提示.

set hive.optimize.bucketmapjoin = true set hive.optimize.bucketmapjoin.sortedmerge = true

我问的原因是,提示说Bucket map join,但是这里没有执行MAP join.我假设map和reduce任务都涉及SMB,而SMBM中只涉及map任务.

如果我错了,请纠正我.

2
推荐指数

1
解决办法

3702
查看次数

标签统计

hive ×4

join ×1

null ×1