我正进入(状态:
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask
Run Code Online (Sandbox Code Playgroud)
尝试使用hive控制台中的命令创建分区表的副本时:
CREATE TABLE copy_table_name LIKE table_name;
INSERT OVERWRITE TABLE copy_table_name PARTITION(day) SELECT * FROM table_name;
Run Code Online (Sandbox Code Playgroud)
我最初得到一些语义分析错误,不得不设置:
set hive.exec.dynamic.partition=true
set hive.exec.dynamic.partition.mode=nonstrict
Run Code Online (Sandbox Code Playgroud)
虽然我不确定上面的属性是做什么的?
蜂巢控制台的全部输出:
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set …Run Code Online (Sandbox Code Playgroud) 我是hive的新手,想要知道是否有像我们在SQL中那样将数据插入到hive表中.我想将我的数据插入到hive中
INSERT INTO tablename VALUES (value1,value2..)
Run Code Online (Sandbox Code Playgroud)
我已经读过你可以将数据从一个文件加载到hive表,或者你可以将数据从一个表导入到hive表中,但有没有办法在SQL中附加数据?
我最近开始研究使用Hive和Impala查询位于HDFS上的大量CSV数据.正如我所期望的那样,与Hive相比,我对Impala的响应时间要好得多.
我想知道是否有一些类型的查询/用例仍然需要Hive以及Impala不适合的地方.
对于HDFS上的相同数据,Impala与Hive相比如何提供更快的查询响应?
据我所理解;
只在reducer中排序
按订单排序全球,但将所有东西都推到一个减速器中
通过密钥散列智能地将东西分配到reducers中并进行排序
所以我的问题是集群保证全球秩序?分配通过将相同的密钥放入相同的减速器但是相邻的密钥呢?
我在hive中创建了一个表,我想知道我的表创建在哪个目录中?我想知道这条路......
我正在寻找一个内置UDF来将我的hive表中的字符串列的值转换为整数,以便使用SELECT和ORDER BY进行排序.我在语言手册中搜索过但没有用.任何其他建议也欢迎.
我正在使用Cloudera的Hive版本并尝试在包含第一列中的列名的csv文件上创建外部表.这是我用来做的代码.
CREATE EXTERNAL TABLE Test (
RecordId int,
FirstName string,
LastName string
)
ROW FORMAT serde 'com.bizo.hive.serde.csv.CSVSerde'
WITH SerDeProperties (
"separatorChar" = ","
)
STORED AS TEXTFILE
LOCATION '/user/File.csv'
Run Code Online (Sandbox Code Playgroud)
样本数据
RecordId,FirstName,LastName
1,"John","Doe"
2,"Jane","Doe"
Run Code Online (Sandbox Code Playgroud)
任何人都可以帮助我跳过第一行或者我需要添加一个中间步骤吗?
将数据从HDFS加载到Hive时,使用
LOAD DATA INPATH 'hdfs_file' INTO TABLE tablename;
Run Code Online (Sandbox Code Playgroud)
命令,看起来它正在将hdfs_file移动到hive/warehousedir.是否有可能(如何?)复制它而不是按顺序移动它,以便文件被另一个进程使用.
我正在尝试将CSV文件加载到Hive表中,如下所示:
CREATE TABLE mytable
(
num1 INT,
text1 STRING,
num2 INT,
text2 STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ",";
LOAD DATA LOCAL INPATH '/data.csv'
OVERWRITE INTO TABLE mytable;
Run Code Online (Sandbox Code Playgroud)
csv由逗号(,)分隔,如下所示:
1, "some text, with comma in it", 123, "more text"
Run Code Online (Sandbox Code Playgroud)
这将返回损坏的数据,因为第一个字符串中有一个','.
有没有办法设置文本分隔符或让Hive忽略字符串中的','?
我无法更改csv的分隔符,因为它是从外部源中提取的.
Apache Spark SQLContext和HiveContext有什么区别?
一些消息来源称,由于HiveContext是SQLContext的超集,因此开发人员应始终使用HiveContext,它具有比SQLContext更多的功能.但是每个上下文的当前API大多是相同的.