bob*_*o32 4 hadoop hive cloudera hue impala
我正在使用Cloudera quickstart vm 5.1.0-1
我试图通过Hue将3GB的csv加载到Hadoop中,到目前为止,我尝试的是:-将csv加载到HDFS中,尤其是加载到名为/ user / hive / datasets的名为datasets的文件夹中-使用Metastore Manager将其加载到默认数据库
一切正常,这意味着我设法在正确的列中加载它。主要问题是,当我使用Impala查询表时,启动以下查询:
显示表格统计信息new_table
我意识到大小仅为64 MB,而不是csv的实际大小(应为3GB)。
另外,如果我通过Impala执行count(*),则行数仅为70000,而实际为700万。
任何帮助将不胜感激。
提前致谢。
我遇到了完全相同的问题。这是Hue如何通过Web界面导入文件的问题,该界面有64MB的限制。
我一直在使用Hive CLI和-f标志针对带有DDL代码的文本文件导入大型数据集。
例:
hive -f beer_data_loader.hql
beer_data_loader.hql:
CREATE DATABASE IF NOT EXISTS beer
COMMENT "Beer Advocate Database";
CREATE TABLE IF NOT EXISTS beer.beeradvocate_raw(
beer_name STRING,
beer_ID BIGINT,
beer_brewerID INT,
beer_ABV FLOAT,
beer_style STRING,
review_appearance FLOAT,
review_aroma FLOAT,
review_palate FLOAT,
review_taste FLOAT,
review_overall FLOAT,
review_time BIGINT,
review_profileName STRING,
review_text STRING
)
COMMENT "Beer Advocate Data Raw"
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
STORED AS parquet;
CREATE EXTERNAL TABLE IF NOT EXISTS beer.beeradvocate_temp(
beer_name STRING,
beer_ID BIGINT,
beer_brewerID INT,
beer_ABV FLOAT,
beer_style STRING,
review_appearance FLOAT,
review_aroma FLOAT,
review_palate FLOAT,
review_taste FLOAT,
review_overall FLOAT,
review_time BIGINT,
review_profileName STRING,
review_text STRING
)
COMMENT "Beer Advocate External Loading Table"
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
LOCATION '/user/name/beeradvocate.data';
INSERT OVERWRITE TABLE beer.beeradvocate_raw SELECT * FROM beer.beeradvocate_temp;
DROP TABLE beer.beeradvocate_temp;
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
3068 次 |
| 最近记录: |