小编use*_*851的帖子

Impala - 将现有表格转换为镶木地板格式

我有一个有分区的表,我使用avro文件或文本文件来创建和插入表.

桌子完成后,有没有办法转换成实木复合地板.我的意思是我知道我们CREATE TABLE default.test( name_id STRING) PARTITIONED BY ( year INT, month INT, day INT ) STORED AS PARQUET最初可以在创建表本身时说完.
在我的用例中,我最初必须使用文本文件.这是因为我想避免每次插入或更新时在分区文件夹中创建多个文件.我的表具有非常多的插入和更新,这会导致性能下降.在创建表格并插入数据后,有没有办法可以转换成镶木地板?

text-files avro impala parquet

5
推荐指数
1
解决办法
8535
查看次数

使用 awk 使用 sha1sum 进行哈希

我有一个“管道分隔”文件,大约有 20 列。我只想使用 sha1sum 对第一列进行哈希处理,该列是一个类似于帐号的数字,并按原样返回其余列。

使用 awk 或 sed 执行此操作的最佳方法是什么?

Accountid|Time|Category|.....
8238438|20140101021301|sub1|...
3432323|20140101041903|sub2|...
9342342|20140101050303|sub1|...
Run Code Online (Sandbox Code Playgroud)

上面是仅显示 3 列的文本文件示例。只有第一列实现了哈希函数。结果应该是这样的:

Accountid|Time|Category|.....
104a1f34b26ae47a67273fe06456be1fe97f75ba|20140101021301|sub1|...
c84270c403adcd8aba9484807a9f1c2164d7f57b|20140101041903|sub2|...
4fa518d8b005e4f9a085d48a4b5f2c558c8402eb|20140101050303|sub1|...
Run Code Online (Sandbox Code Playgroud)

hash awk sha1 sed

4
推荐指数
1
解决办法
2395
查看次数

期待在alter exchange partition中'table'附近的KW_EXCHANGE

我正在处理hive中的一个表,它没有分区,输入格式为textinputformat.这不是外部表,我使用"Create table as select"模板创建它.

我使用alter table语句重命名表,如下所示:

ALTER TABLE testdb.temptable RENAME TO testdb.newtable;
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

Error: Error while compiling statement: FAILED: ParseException line 1:32 mismatched input 'RENAME' expecting KW_EXCHANGE near 'temptable' in alter exchange partition (state=42000,code=40000)
Closing: org.apache.hive.jdbc.HiveConnection
Run Code Online (Sandbox Code Playgroud)

我发现它是蜂巢中的一个错误.我使用的版本:Hive 0.12.0-cdh5.1.4

我该如何解决这个问题.在此先感谢您的帮助!

ddl hadoop hive

4
推荐指数
1
解决办法
3629
查看次数

Python列表到dict

我有一个很大的清单

['a', '2'] ['a', '1'] ['b', '3'] ['c', '2'] ['b', '1'] ['a', '1']['b', '1'] ['c', '2']['b', '3'] ['b', '1']
Run Code Online (Sandbox Code Playgroud)

我想通过这个来获得每个第二项的数量输出以获得不同的第一项:

{a:[2,1,1] b:[3,1,3,1] c:[2,2]}
Run Code Online (Sandbox Code Playgroud)

python dictionary list

3
推荐指数
2
解决办法
3798
查看次数

R返回NA的strptime

我的数据集中有一个名为timestamp的变量,它是一种形式.MYDATA $时间戳

2013-08-01 12:00:00 2013-08-01 12:00:00 2013-08-01 12:00:00

我想修改它们并将它们更改为只有dd-mm-yy格式的 dates<-strptime(mydata$timestamp, format="%d:%m:%y") 打印日期才会产生NA.不知道为什么.

有人可以帮忙吗?

提前致谢

r

3
推荐指数
1
解决办法
7238
查看次数

在spark作业中调用JDBC到impala/hive并创建表

我试图在scala中编写一个spark作业,它将打开与Impala的jdbc连接,让我创建一个表并执行其他操作.

我该怎么做呢?任何一个例子都会有很大的帮助.谢谢!

scala jdbc impala apache-spark

3
推荐指数
1
解决办法
8512
查看次数

删除hive分区外部表但保留分区

使用外部配置单元表时,有没有办法可以删除目录中的数据,但通过查询保留分区.请注意我不想放弃桌子并重新创建它.我只是想清空底层文件夹并重新开始一个进程.我的表很大,按年,月,日和小时划分分区,手动重新创建分区需要花费大量时间.

谢谢

hadoop hive metadata hdfs

3
推荐指数
1
解决办法
4353
查看次数

按降序排列列表中的项目数

嗨,我有一个这样的列表: llist=['a','b','c','b','e','a','f','e','f','e','e','e','a'] 我使用集合中的计数器并使用:

from collections import Counter

c=Counter(llist)

print c.items()
Run Code Online (Sandbox Code Playgroud)

它打印 [('a', 3), ('c', 1), ('b', 2), ('e', 5), ('f', 2)]

我想按降序打印它们,例如

   5 e
   3 a
   2 b
   2 f
   1 c
Run Code Online (Sandbox Code Playgroud)

python list

2
推荐指数
1
解决办法
2462
查看次数

在Python中的正则表达式中转义特殊字符

我有一个字典和字符串,如:

d = {'ASAP':'as soon as possible', 'AFAIK': 'as far as I know'}
s = 'I will do this ASAP, AFAIK.  Regards, X'
Run Code Online (Sandbox Code Playgroud)

我想用字符串中的dict键替换dict的值并返回

I will do this <as soon as possible>, <as far as I know>.  Regards, X.
Run Code Online (Sandbox Code Playgroud)

我用

pattern = re.compile(r'\b(' + '|'.join(d.keys())+r')\b')
result=pattern.sub(lambda x: '<'+d[x.group()]+'>',s)
print"result:%s" % result
Run Code Online (Sandbox Code Playgroud)

我有一个字典,如:

{'will you wash some pants for me please :-)': 'text'}
Run Code Online (Sandbox Code Playgroud)

笑脸导致错误.如何更改我的正则表达式以适应像表情符号这样的任何字符?

python regex

2
推荐指数
1
解决办法
2236
查看次数

在Talend中thashoutput/input和tbufferoutput/input之间的差异

我不清楚Talend中使用tHash和tBuffer组件之间的区别.

我正在考虑在Impala表中存储tMap的结果以及在内存(缓存)中存储另一个副本,并对此执行其他转换以最终写入表.

caching talend impala

2
推荐指数
1
解决办法
6386
查看次数

标签 统计

impala ×3

python ×3

hadoop ×2

hive ×2

list ×2

apache-spark ×1

avro ×1

awk ×1

caching ×1

ddl ×1

dictionary ×1

hash ×1

hdfs ×1

jdbc ×1

metadata ×1

parquet ×1

r ×1

regex ×1

scala ×1

sed ×1

sha1 ×1

talend ×1

text-files ×1