标签: hive

什么是Hive:从org.apache.hadoop.hive.ql.exec.MapRedTask返回代码2

我正进入(状态:

FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask
Run Code Online (Sandbox Code Playgroud)

尝试使用hive控制台中的命令创建分区表的副本​​时:

CREATE TABLE copy_table_name LIKE table_name;
INSERT OVERWRITE TABLE copy_table_name PARTITION(day) SELECT * FROM table_name;
Run Code Online (Sandbox Code Playgroud)

我最初得到一些语义分析错误,不得不设置:

set hive.exec.dynamic.partition=true
set hive.exec.dynamic.partition.mode=nonstrict
Run Code Online (Sandbox Code Playgroud)

虽然我不确定上面的属性是做什么的?

蜂巢控制台的全部输出:

Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set …
Run Code Online (Sandbox Code Playgroud)

hadoop hive mapreduce

55
推荐指数
2
解决办法
17万
查看次数

Hive插入查询,如SQL

我是hive的新手,想要知道是否有像我们在SQL中那样将数据插入到hive表中.我想将我的数据插入到hive中

INSERT INTO tablename VALUES (value1,value2..)
Run Code Online (Sandbox Code Playgroud)

我已经读过你可以将数据从一个文件加载到hive表,或者你可以将数据从一个表导入到hive表中,但有没有办法在SQL中附加数据?

sql hadoop hive hiveql

55
推荐指数
7
解决办法
21万
查看次数

与hive相比,impala如何提供更快的查询响应

我最近开始研究使用Hive和Impala查询位于HDFS上的大量CSV数据.正如我所期望的那样,与Hive相比,我对Impala的响应时间要好得多.

我想知道是否有一些类型的查询/用例仍然需要Hive以及Impala不适合的地方.

对于HDFS上的相同数据,Impala与Hive相比如何提供更快的查询响应?

hadoop hive impala

54
推荐指数
3
解决办法
3万
查看次数

Hive cluster by vs order by vs sort by

据我所理解;

  • 只在reducer中排序

  • 按订单排序全球,但将所有东西都推到一个减速器中

  • 通过密钥散列智能地将东西分配到reducers中并进行排序

所以我的问题是集群保证全球秩序?分配通过将相同的密钥放入相同的减速器但是相邻的密钥呢?

我能在这里找到的唯一文件就是这里,从示例中可以看出它是全局命令的.但从定义来看,我觉得并不总是如此.

hadoop hive hql

51
推荐指数
4
解决办法
7万
查看次数

我在hive中创建了一个表,我想知道我的表创建在哪个目录中?

我在hive中创建了一个表,我想知道我的表创建在哪个目录中?我想知道这条路......

hive hiveql

50
推荐指数
6
解决办法
10万
查看次数

Hive:将String转换为Integer

我正在寻找一个内置UDF来将我的hive表中的字符串列的值转换为整数,以便使用SELECT和ORDER BY进行排序.我在语言手册中搜索过但没有用.任何其他建议也欢迎.

string hive user-defined-functions hiveql

47
推荐指数
2
解决办法
17万
查看次数

Hive外部表跳过第一行

我正在使用Cloudera的Hive版本并尝试在包含第一列中的列名的csv文件上创建外部表.这是我用来做的代码.

CREATE EXTERNAL TABLE Test ( 
  RecordId int, 
  FirstName string, 
  LastName string 
) 
ROW FORMAT serde 'com.bizo.hive.serde.csv.CSVSerde' 
WITH SerDeProperties (  
  "separatorChar" = ","
) 
STORED AS TEXTFILE 
LOCATION '/user/File.csv'
Run Code Online (Sandbox Code Playgroud)

样本数据

RecordId,FirstName,LastName
1,"John","Doe"
2,"Jane","Doe"
Run Code Online (Sandbox Code Playgroud)

任何人都可以帮助我跳过第一行或者我需要添加一个中间步骤吗?

hive cloudera

47
推荐指数
4
解决办法
9万
查看次数

如何在不删除源文件的情况下从HDFS加载数据到hive?

将数据从HDFS加载到Hive时,使用

LOAD DATA INPATH 'hdfs_file' INTO TABLE tablename;
Run Code Online (Sandbox Code Playgroud)

命令,看起来它正在将hdfs_file移动到hive/warehousedir.是否有可能(如何?)复制它而不是按顺序移动它,以便文件被另一个进程使用.

hadoop hive

46
推荐指数
2
解决办法
10万
查看次数

Hive在引用字段中使用逗号加载CSV

我正在尝试将CS​​V文件加载到Hive表中,如下所示:

CREATE TABLE mytable
(
num1 INT,
text1 STRING,
num2 INT,
text2 STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ",";

LOAD DATA LOCAL INPATH '/data.csv'
OVERWRITE INTO TABLE mytable;    
Run Code Online (Sandbox Code Playgroud)


csv由逗号(,)分隔,如下所示:

1, "some text, with comma in it", 123, "more text"
Run Code Online (Sandbox Code Playgroud)

这将返回损坏的数据,因为第一个字符串中有一个','.
有没有办法设置文本分隔符或让Hive忽略字符串中的','?

我无法更改csv的分隔符,因为它是从外部源中提取的.

hadoop hbase hive delimiter hdfs

46
推荐指数
3
解决办法
10万
查看次数

Apache Spark SQLContext和HiveContext有什么区别?

Apache Spark SQLContext和HiveContext有什么区别?

一些消息来源称,由于HiveContext是SQLContext的超集,因此开发人员应始终使用HiveContext,它具有比SQLContext更多的功能.但是每个上下文的当前API大多是相同的.

  • SQLContext/HiveContext更有用的场景是什么?
  • 只有在使用Hive时,HiveContext才更有用吗?
  • 或者SQLContext是否是使用Apache Spark实现大数据应用程序所需的全部内容?

hive apache-spark apache-spark-sql

45
推荐指数
2
解决办法
3万
查看次数