我怎样才能在Hive中使用In子句我想在Hive中编写类似的东西从y中选择x,其中yz in(从y中选择不同的z)顺序x; 但是我没有找到任何方法这样做..我在Hive 0.7中尝试了In子句它抛出了错误,我尝试了Find_in_Set ..使用find_in_set(yz,subquery)..但是工作失败了.
我想在Hive上做这个.如果有人知道如何在Hive中这样做,请帮助我..
感谢和问候,Atul
假设我有如下所述的数据.
11AM user1刷机
上午11:05 user1准备Brakfast
上午11:10用户1吃早餐
上午11:15 user1洗澡
上午11:30用户1离开办公室
12PM user2刷机
下午12:05 user2 Prep Brakfast
下午12:10用户2吃早餐
12:15 PM user2洗澡
12:30 PM user2离开办公室
11AM user3洗澡
上午11:05 user3准备Brakfast
上午11:10 user3刷机
上午11:15 user3吃早餐
上午11:30 user3离开办公室
12PM user4洗澡
下午12:05 user4 Prep Brakfast
下午12:10 user4刷机
下午12:15用户4吃早餐
12:30 PM user4离开办公室
这些数据告诉我不同人的日常生活.从这些数据来看,似乎user1和user2的行为相似(尽管它们执行活动的时间有所不同,但它们遵循相同的顺序).出于同样的原因,User3和User4的行为类似.现在我必须将这些用户分组到不同的组中.在此示例中,group1- user1和USer2 ...后跟group2,包括user3和user4
我应该如何处理这种情况.我正在尝试学习数据挖掘,这是一个我认为是数据挖掘问题的例子.我试图找到解决方案的方法,但我想不出一个.我相信这些数据有其中的模式.但我无法想到可以揭示它的方法.此外,我必须在我拥有的数据集上映射此方法,这非常巨大,但与此类似:)数据是关于日志说明事件一次发生.我想找到代表相似事件序列的组.
任何指针将不胜感激.
我是hadoop map reduce框架的新手,我正在考虑使用hadoop map reduce来解析我的数据.我有成千上万的大分隔文件,我正在考虑编写一个map reduce工作来解析这些文件并将它们加载到hive datawarehouse中.我在perl中编写了一个可以解析这些文件的解析器.但我坚持用Hadoop map reduce做同样的事情
例如:我有一个像x = ay = bz = c ..... x = py = qz = s ..... x = 1 z = 2 ....等文件
现在我必须在hive表中将此文件作为列(x,y,z)加载,但我无法弄清楚是否可以继续使用它.任何有关这方面的指导都会非常有帮助.
这样做的另一个问题是存在缺少字段y的一些文件.我必须在map reduce工作中包含该条件.到目前为止,我已经尝试使用streaming.jar并将我的parser.pl作为mapper作为该jar文件的输入.我认为这不是这样做的方法:),但我只是在尝试,如果这样做.另外,我想过使用Hive的加载功能,但如果我在hive表中指定regexserde,则缺少的列会产生问题.
我现在迷失了,如果有人可以指导我,我会感激:)
此致,Atul