标签: hive

将数据从.txt文件加载到表中存储为Hive中的ORC

我有一个.txt格式的数据文件.我正在使用该文件将数据加载到Hive表中.当我在一个表中加载文件时

CREATE TABLE test_details_txt(
visit_id INT,
store_id SMALLINT) STORED AS TEXTFILE;
Run Code Online (Sandbox Code Playgroud)

使用正确加载数据

LOAD DATA LOCAL INPATH '/home/user/test_details.txt' INTO TABLE test_details_txt;
Run Code Online (Sandbox Code Playgroud)

我可以SELECT * FROM test_details_txt;在Hive的桌子上跑一个.

但是,如果我尝试在表中加载数据

CREATE TABLE test_details_txt(
visit_id INT,
store_id SMALLINT) STORED AS ORC; 
Run Code Online (Sandbox Code Playgroud)

尝试运行SELECT时收到以下错误:

Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file hdfs://master:6000/user/hive/warehouse/test.db/transaction_details/test_details.txt. Invalid postscript.

使用上面的LOAD语句加载数据时,我没有收到任何错误或异常.

使用命令将数据存储到ORC表时还有什么需要完成的LOAD DATA IN PATH..吗?

hadoop hive

35
推荐指数
2
解决办法
7万
查看次数

你如何用JSON数据制作一个HIVE表?

我想用一些JSON数据(嵌套)创建一个Hive表并在其上运行查询?这甚至可能吗?

我已经将JSON文件上传到S3并启动了一个EMR实例但是我不知道在hive控制台中输入什么来将JSON文件作为Hive表?

有没有人有一些示例命令让我开始,我找不到任何有用的谷歌......

json hadoop hive amazon-emr emr

33
推荐指数
2
解决办法
9万
查看次数

java.lang.RuntimeException:无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient

我已经在链接上配置了我的Hive:http://www.youtube.com/watch?v = Dqo1ahdBK_A,但是在Hive中创建表时出现以下错误.我使用hadoop-1.2.1和hive-0.12.0.

hive> create table employee(emp_id int,name string,salary double);
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient
Run Code Online (Sandbox Code Playgroud)

hive hiveql hive-metastore

33
推荐指数
3
解决办法
8万
查看次数

如何将.txt文件转换为Hadoop的序列文件格式

为了在Hadoop中有效地利用map-reduce作业,我需要以hadoop的序列文件格式存储数据.但是,目前数据只是平面.txt格式.任何人都建议我可以将.txt文件转换为序列文件?

java hadoop hive file type-conversion

31
推荐指数
3
解决办法
5万
查看次数

将Spark数据帧保存为Hive中的动态分区表

我有一个示例应用程序正在从csv文件读取数据帧.可以使用该方法将数据帧以镶木地板格式存储到Hive表中 df.saveAsTable(tablename,mode).

上面的代码工作正常,但我每天都有如此多的数据,我想根据creationdate(表中的列)动态分区hive表.

有没有办法动态分区数据帧并将其存储到配置单元仓库.想要避免使用硬编码插入语句hivesqlcontext.sql(insert into table partittioin by(date)....).

问题可以视为以下内容的扩展:如何将DataFrame直接保存到Hive?

任何帮助深表感谢.

hadoop hive apache-spark apache-spark-sql spark-dataframe

30
推荐指数
4
解决办法
7万
查看次数

有没有办法在配置单元脚本中进行多行注释

我知道我们可以在hiveQL(hive.sql脚本)中使用' - '进行单行注释,但有没有办法进行多行注释?我需要下面的东西

/*  This sentence is 
    a comment */
Run Code Online (Sandbox Code Playgroud)

hive

29
推荐指数
3
解决办法
5万
查看次数

Hive查询快速查找表大小(行数)

是否有Hive查询可以快速查找表大小(即行数)而无需启动耗时的MapReduce作业?(这就是我想避免的原因COUNT(*).)

我试过了DESCRIBE EXTENDED,但那产生了numRows=0显然是不正确的.

(对于newb问题道歉.我尝试使用Google搜索并搜索apache.org文档但没有成功.)

hadoop hive

29
推荐指数
3
解决办法
7万
查看次数

SparkSQL与Spark上的Hive - 差异和利弊?

SparkSQL CLI内部使用HiveQL,如果是Hive on spark(HIVE-7292),则hive使用spark作为后端引擎.有人可以提供更多的亮点,这两种情况究竟有何不同以及两种方法的利弊?

hadoop hive apache-spark apache-spark-sql

29
推荐指数
2
解决办法
4万
查看次数

PySpark:withColumn()有两个条件和三个结果

我正在使用Spark和PySpark.我试图实现相当于以下伪代码的结果:

df = df.withColumn('new_column', 
    IF fruit1 == fruit2 THEN 1, ELSE 0. IF fruit1 IS NULL OR fruit2 IS NULL 3.)
Run Code Online (Sandbox Code Playgroud)

我试图在PySpark中这样做,但我不确定语法.有什么指针吗?我调查expr()但无法让它工作.

请注意,这df是一个pyspark.sql.dataframe.DataFrame.

hive hiveql apache-spark apache-spark-sql pyspark

29
推荐指数
3
解决办法
9万
查看次数

使用Apache Spark查询多个Hive存储

我有一个spark应用程序,它将成功连接到hive并使用spark引擎查询hive表.

为了构建这个,我刚刚添加hive-site.xml到应用程序的类路径中,spark将读取hive-site.xml连接到它的Metastore.spark的邮件列表中提出了这种方法.

到现在为止还挺好.现在我想连接到两个配置单元存储,我不认为hive-site.xml在我的类路径中添加另一个将有所帮助.我提到了不少文章和火花邮件列表,但找不到任何人这样做.

有人可以建议我如何实现这一目标吗?

谢谢.

文件提到:

hive apache-spark spark-hive

28
推荐指数
1
解决办法
3001
查看次数