use*_*868 8 performance hadoop hive
我是Hadoop Hive的新手,我正在开发一个报告解决方案.问题是查询性能非常慢(hive 0.10,hbase 0.94,hadoop 1.1.1).其中一个问题是:
select a.*, b.country, b.city from p_country_town_hotel b
inner join p_hotel_rev_agg_period a on
(a.key.hotel = b.hotel) where b.hotel = 'AdriaPraha' and a.min_date < '20130701'
order by a.min_date desc
limit 10;
Run Code Online (Sandbox Code Playgroud)
这花了很长时间(50s).我知道我知道,连接是在字符串字段而不是整数,但数据集不大(cca 3300和100000记录).我尝试了这个SQL的提示,但结果并没有变得更快.MS SQL Server上的相同查询持续1秒.表中的简单计数(*)持续7-8s,令人震惊(该表有3300条记录).我真的不知道是什么问题?任何想法或我是否误解了Hadoop?