小编use*_*856的帖子

如何编写子查询并在Hive中使用"In"子句

我怎样才能在Hive中使用In子句我想在Hive中编写类似的东西从y中选择x,其中yz in(从y中选择不同的z)顺序x; 但是我没有找到任何方法这样做..我在Hive 0.7中尝试了In子句它抛出了错误,我尝试了Find_in_Set ..使用find_in_set(yz,subquery)..但是工作失败了.

我想在Hive上做这个.如果有人知道如何在Hive中这样做,请帮助我..

感谢和问候,Atul

hadoop hive

use*_*856

lucky-day

17
推荐指数

3
解决办法

8万
查看次数

数据挖掘情况

假设我有如下所述的数据.

11AM user1刷机

上午11:05 user1准备Brakfast

上午11:10用户1吃早餐

上午11:15 user1洗澡

上午11:30用户1离开办公室

12PM user2刷机

下午12:05 user2 Prep Brakfast

下午12:10用户2吃早餐

12:15 PM user2洗澡

12:30 PM user2离开办公室

11AM user3洗澡

上午11:05 user3准备Brakfast

上午11:10 user3刷机

上午11:15 user3吃早餐

上午11:30 user3离开办公室

12PM user4洗澡

下午12:05 user4 Prep Brakfast

下午12:10 user4刷机

下午12:15用户4吃早餐

12:30 PM user4离开办公室

这些数据告诉我不同人的日常生活.从这些数据来看,似乎user1和user2的行为相似(尽管它们执行活动的时间有所不同,但它们遵循相同的顺序).出于同样的原因,User3和User4的行为类似.现在我必须将这些用户分组到不同的组中.在此示例中,group1- user1和USer2 ...后跟group2,包括user3和user4

我应该如何处理这种情况.我正在尝试学习数据挖掘,这是一个我认为是数据挖掘问题的例子.我试图找到解决方案的方法,但我想不出一个.我相信这些数据有其中的模式.但我无法想到可以揭示它的方法.此外,我必须在我拥有的数据集上映射此方法,这非常巨大,但与此类似:)数据是关于日志说明事件一次发生.我想找到代表相似事件序列的组.

任何指针将不胜感激.

data-mining text-mining

use*_*856

2013 01-10

7
推荐指数

1
解决办法

203
查看次数

解析并加载到Hive/Hadoop中

我是hadoop map reduce框架的新手,我正在考虑使用hadoop map reduce来解析我的数据.我有成千上万的大分隔文件,我正在考虑编写一个map reduce工作来解析这些文件并将它们加载到hive datawarehouse中.我在perl中编写了一个可以解析这些文件的解析器.但我坚持用Hadoop map reduce做同样的事情

例如:我有一个像x = ay = bz = c ..... x = py = qz = s ..... x = 1 z = 2 ....等文件

现在我必须在hive表中将此文件作为列(x,y,z)加载,但我无法弄清楚是否可以继续使用它.任何有关这方面的指导都会非常有帮助.

这样做的另一个问题是存在缺少字段y的一些文件.我必须在map reduce工作中包含该条件.到目前为止,我已经尝试使用streaming.jar并将我的parser.pl作为mapper作为该jar文件的输入.我认为这不是这样做的方法:),但我只是在尝试,如果这样做.另外,我想过使用Hive的加载功能,但如果我在hive表中指定regexserde,则缺少的列会产生问题.

我现在迷失了,如果有人可以指导我,我会感激:)

此致,Atul

hadoop hive mapreduce

use*_*856

lucky-day

3
推荐指数

1
解决办法

6658
查看次数