通过Hue在hadoop中加载大型csv只会存储一个64MB的块

Question

通过Hue在hadoop中加载大型csv只会存储一个64MB的块

bob*_*o32 4 hadoop hive cloudera hue impala

我正在使用Cloudera quickstart vm 5.1.0-1

我试图通过Hue将3GB的csv加载到Hadoop中，到目前为止，我尝试的是：-将csv加载到HDFS中，尤其是加载到名为/ user / hive / datasets的名为datasets的文件夹中-使用Metastore Manager将其加载到默认数据库

一切正常，这意味着我设法在正确的列中加载它。主要问题是，当我使用Impala查询表时，启动以下查询：

显示表格统计信息new_table

我意识到大小仅为64 MB，而不是csv的实际大小（应为3GB）。

另外，如果我通过Impala执行count（*），则行数仅为70000，而实际为700万。

任何帮助将不胜感激。

提前致谢。

Answer 1

Jam*_*Con 5

我遇到了完全相同的问题。这是Hue如何通过Web界面导入文件的问题，该界面有64MB的限制。

我一直在使用Hive CLI和-f标志针对带有DDL代码的文本文件导入大型数据集。

例：

hive -f beer_data_loader.hql

beer_data_loader.hql：

  CREATE DATABASE IF NOT EXISTS beer  
  COMMENT "Beer Advocate Database";


CREATE TABLE IF NOT EXISTS beer.beeradvocate_raw(  
    beer_name           STRING,
    beer_ID             BIGINT,
    beer_brewerID       INT,
    beer_ABV            FLOAT,
    beer_style          STRING,
    review_appearance   FLOAT,
    review_aroma        FLOAT,
    review_palate       FLOAT,
    review_taste        FLOAT,
    review_overall      FLOAT,
    review_time         BIGINT,
    review_profileName  STRING,
    review_text         STRING
    )
 COMMENT "Beer Advocate Data Raw"
 ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '|'
 STORED AS parquet;


CREATE EXTERNAL TABLE IF NOT EXISTS beer.beeradvocate_temp(  
    beer_name           STRING,
    beer_ID             BIGINT,
    beer_brewerID       INT,
    beer_ABV            FLOAT,
    beer_style          STRING,
    review_appearance   FLOAT,
    review_aroma        FLOAT,
    review_palate       FLOAT,
    review_taste        FLOAT,
    review_overall      FLOAT,
    review_time         BIGINT,
    review_profileName  STRING,
    review_text         STRING
    )
 COMMENT "Beer Advocate External Loading Table"
 ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '|'
 LOCATION '/user/name/beeradvocate.data';


INSERT OVERWRITE TABLE beer.beeradvocate_raw SELECT * FROM beer.beeradvocate_temp;  
DROP TABLE beer.beeradvocate_temp;

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，3 月前
查看次数：	3068 次
最近记录：	10 年，11 月前