小编Bag*_*thi的帖子

HIVE 将覆盖插入到分区表中

我在分区表上运行了插入覆盖。在命令之后,例如创建以下分区。a,b,c,d,e

现在当我重新运行插入覆盖表时,但这次使用完全不同的数据集。比如说,在第二次插入之后,下面的分区被创建。f,g,h,i,j

问题 - 第二次插入的数据不会覆盖属于第一次插入的数据。第二次插入后,我仍然在 HDFS 中看到文件夹 a、b、c、d、e。但是当我通过 HIVE 查询它们时,分区 a,b,c,d,e 没有出现。

这是插入覆盖表的预期行为吗?或者我在这里遗漏了什么?

hadoop hive

5
推荐指数
2
解决办法
4万
查看次数

Sqoop导入Null字符串

Null查询配置单元外部表时,值显示为"\ N".

下面是sqoop导入脚本:

sqoop import -libjars /usr/lib/sqoop/lib/tdgssconfig.jar,/usr/lib/sqoop/lib/terajdbc4.jar -Dmapred.job.queue.name = xxxxxx\--connect jdbc:teradata:// xxx .xx.xxx.xx/DATABASE = $ db,LOGMECH = LDAP --connection-manager org.apache.sqoop.teradata.TeradataConnManager\--username $ user --password $ pwd --query"

从$ db.xxx中选择col1,col2,col3

其中\ $ CONDITIONS"\ - null-string'\ N' - null-non-string'\ N'\ --fields-terminated-by'\t'--num-mappers 6\--split-by job_number\--delete-target-dir\--target-dir $ hdfs_loc

请告知应对脚本进行哪些更改,以便在查询外部配置单元表时将空值显示为空.

null hadoop hive teradata sqoop

5
推荐指数
2
解决办法
1万
查看次数

Sqoop导入按列数据类型拆分

sqoop import中Split by column的数据类型是否应该是数字数据类型(整数,bignint,数字)?不能是一个字符串?

hive sqoop

3
推荐指数
1
解决办法
5947
查看次数

Hive Sort Merge Bucket Join

排序合并Bucket Join与Sort Merge Bucket Map join不同吗?如果是这样,应该添加什么提示以启用SMB加入?SMBM如何优于SMB加入?

将"设置hive.auto.convert.sortmerge.join = true"这个提示单独用于SMB加入吗?否则,还应包括以下提示.

set hive.optimize.bucketmapjoin = true set hive.optimize.bucketmapjoin.sortedmerge = true

我问的原因是,提示说Bucket map join,但是这里没有执行MAP join.我假设map和reduce任务都涉及SMB,而SMBM中只涉及map任务.

如果我错了,请纠正我.

hive join

2
推荐指数
1
解决办法
3702
查看次数

标签 统计

hive ×4

hadoop ×2

sqoop ×2

join ×1

null ×1

teradata ×1