小编Rio*_*Rio的帖子

使用分区将数据从一个Hive表加载到另一个Hive表

我在一个Hive表中有数据,并希望将数据加载到另一个hive表中.

源表是reg_logs,它有2个分区,日期和小时.数据每小时加载到此表中.架构是:

CREATE EXTERNAL TABLE IF NOT EXISTS reg_logs (
id int,
region_code int,
count int
)
PARTITIONED BY (utc_date STRING, utc_hour STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION '/ad_data/raw/reg_logs';
Run Code Online (Sandbox Code Playgroud)

目标表是reg_logs_org我想要做的就是从utc_hour列旁边的reg_logs复制所有数据.

我创建的架构是:(如果我错了,请更正)

CREATE EXTERNAL TABLE IF NOT EXISTS reg_logs_org (
id int,
region_code int,
count int
)
PARTITIONED BY (utc_date STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION '/ad_data/reg_logs_org';
Run Code Online (Sandbox Code Playgroud)

从reg_logs将数据插入reg_logs_org:

insert overwrite table reg_logs_org
select id, region_code, sum(count), utc_date
from 
reg_logs …
Run Code Online (Sandbox Code Playgroud)

hadoop hive

13
推荐指数
3
解决办法
5万
查看次数

使用Oozie执行Sqoops

我有2个Sqoops,可以将数据从HDFS加载到MySQL.我想用Oozie执行它们.我看到Oozie是一个XML文件.如何配置它以便我可以执行那些Sqoop?演示步骤将受到赞赏?

两个Sqoops是:

1.

sqoop export --connect jdbc:mysql://localhost/hduser --table foo1 -m 1 --export-dir /user/cloudera/bar1
Run Code Online (Sandbox Code Playgroud)

2.

sqoop export --connect jdbc:mysql://localhost/hduser --table foo2 -m 1 --export-dir /user/cloudera/bar2
Run Code Online (Sandbox Code Playgroud)

谢谢.

hadoop sqoop oozie

6
推荐指数
1
解决办法
1万
查看次数

Jenkins运行并行脚本

我是詹金斯的新手,需要一些帮助..

我有4个shell脚本:test1.sh,test2.sh,test3.sh和test4.sh

我希望test2.sh仅在test1.sh成功运行时运行,而test4.sh仅在test3.sh成功运行时运行.我还希望test1.sh和test3.sh并行运行.

我怎么能在詹金斯实现它?

我正在使用"使用ssh在远程主机上执行shell脚本"和"条件步骤(多个)"(只是探索).我还设置了密钥以便与远程服务器通信.

使用屏幕截图或其他方式的插图会很有帮助.

谢谢!

jenkins

5
推荐指数
1
解决办法
5535
查看次数

Python斐波那契系列

我用Python编写了斐波纳契系列.无法弄清楚为什么第二个程序给出了错误答案,而第一个程序看起来是正确的.

以下程序给出正确的答案

def fib(n):
  a,b=0,1
  while b<n:
    print b
    a,b=b,a+b

fib(4)
1
1
2
3
Run Code Online (Sandbox Code Playgroud)

以下程序给出了错误答案:

def fib(n):
  a = 0
  b = 1
  while b<n:
    print b
    a = b
    b = a+b

fib(4)

1
2
Run Code Online (Sandbox Code Playgroud)

python

3
推荐指数
1
解决办法
625
查看次数

每 5 秒获取 MySQL 进程列表日志

如何编写一个 cron 作业来运行 MySQL“show processlist”命令并在凌晨 5 点到 7 点之间每 5 秒存储在日志文件中?

我知道 cron 中的最短时间是一分钟而不是秒。如果我需要脚本,我会在 Bash 中寻找解决方案。

我认为这个 cron 作业在早上 5 点到 7 点之间每 5 分钟运行一次。

*/5 5-7 * * * mysql -ufoo --password='' -te "show full processlist" > /home/foo/log/show_processlist.log.`date +\%Y\%m\%d-\%H\%M` 2>&1
Run Code Online (Sandbox Code Playgroud)

mysql database linux

1
推荐指数
1
解决办法
4706
查看次数

将 Excel 值转换为双引号,它们之间用逗号隔开

我在 Excel 中有一个数字列,我想将它转换为数字列表,每个元素上都有双引号,用逗号分隔,每个数字之间没有空格。

Excel有:

ID
201
202
203
204
Run Code Online (Sandbox Code Playgroud)

我想要带有双引号和逗号的数字列表,它们之间没有空格。就像是:

“201”、“202”、“203”、“204”

谢谢!

csv excel

0
推荐指数
1
解决办法
8136
查看次数

标签 统计

hadoop ×2

csv ×1

database ×1

excel ×1

hive ×1

jenkins ×1

linux ×1

mysql ×1

oozie ×1

python ×1

sqoop ×1