小编psm*_*ith的帖子

如何部署和运行oozie工作？

我正在尝试使用oozie做一个简单的工作.
这将是一个简单的猪行动.

我有一个文件:FirstScript.pig包含:

dual = LOAD 'default.dual' USING org.apache.hcatalog.pig.HCatLoader();
store dual into 'dummy_file.txt' using PigStorage();

Run Code Online (Sandbox Code Playgroud)

和一个workflow.xml包含:

<workflow-app name="FirstWorkFlow" xmlns="uri:oozie:workflow:0.2">
    <start to="FirstJob"/> 
    <action name="FirstJob">
        <pig>
            <job-tracker>hadoop:50300</job-tracker>
            <name-node>hdfs://hadoop:8020</name-node>
            <script>/FirstScript.pig</script>
        </pig>
        <ok to="okjob"/>
        <error to="errorjob"/>
    </action>
    <ok name='okjob'>    
        <message>job OK, message[${wf:errorMessage()}]</message>
    </ok>    
    <error name='errorjob'>    
        <message>job error, error message[${wf:errorMessage()}]</message>
    </error>    
</workflow-app>

Run Code Online (Sandbox Code Playgroud)

我创建了结构:

FirstScript
|- lib
|---FirstScript.pig
|- workflow.xml

Run Code Online (Sandbox Code Playgroud)

现在怎么办？如何部署它并与oozie一起运行？
任何人都可以获得经验帮助

关心
帕维尔

hadoop apache-pig oozie

psm*_*ith

2014 01-30

10
推荐指数

1
解决办法

2万
查看次数

HBase和HCatalog之间的相关性是什么？

enyone可以解释一下,HCatalog和HBase之间的关系是什么？

我发现了这些定义:

Apache HCatalog HCatalog是一个元数据抽象层,用于在不使用底层文件名或格式的情况下引用数据.它将用户和脚本与数据的物理存储方式和位置隔离开来.

Apache HBase HBase(Hadoop DataBase)是一个分布式,面向列的数据库.HBase将HDFS用于底层存储.它支持使用MapReduce和点查询(随机读取)的批处理样式计算.

我们在Hive中使用CREATE TABLE,它在HCatalog中创建表.我只是不明白.为什么不在真正的DATABASE中使用HBase？

HCatalog似乎是所有数据存储的某种metedata存储库.这是否意味着它还保存有关HBase中数据库和表的信息？

我将很感激解释

关心帕维尔

hbase hive hcatalog

psm*_*ith

2014 08-22

7
推荐指数

1
解决办法

6593
查看次数

从 SQLDeveloper 导出 NUMBER - 逗号而不是点

我有带有 NUMBER(10,2) 列的表（Oracle 11g）。
假设样本值为 123.34 当我导出数据时，我得到“123,24”。最后，我的 INSERT 脚本在尝试将 VARCHAR 值插入 NUMBER 列时出错。

我已将 Preferences/Database/NLS/Decimal Separator 设置为 . （点）

如何让 SQLDeveloper 在导出 NUMBER 列时使用点而不是逗号？

oracle-sqldeveloper

psm*_*ith

2019 02-11

7
推荐指数

1
解决办法

4760
查看次数

是否可以管理猪的NO FILE错误？

我正在尝试加载简单文件:

log = load 'file_1.gz' using TextLoader AS (line:chararray);
dump log

Run Code Online (Sandbox Code Playgroud)

我收到一个错误:

2014-04-08 11:46:19,471 [main] ERROR org.apache.pig.tools.pigstats.SimplePigStats - ERROR 2997: Unable to recreate exception from backend error: org.apache.pig.backend.executionengine.ExecException: ERROR 2118: Input Pattern hdfs://hadoop1:8020/pko/file*gz matches 0 files
        at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:288)
        at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:1054)

Run Code Online (Sandbox Code Playgroud)

错误出现之前是否可以管理这种情况？

apache-pig

psm*_*ith

2014 04-09

6
推荐指数

1
解决办法

450
查看次数

从 hdfs 中的 .Trash 中删除数据

当我从 hdfs 中删除数据时，如果转到 .Trash。

我可以使用

hdfs dfs -rm -skipTrash /path_to_directory

Run Code Online (Sandbox Code Playgroud)

或使用

hdfs dfs -expunge

Run Code Online (Sandbox Code Playgroud)

删除 .Trash 中已有的数据

两个问题：

在 Hive 中删除表时 - 表会转到 .Trash 还是被永久删除？
这是否可以为所有用户从 .Trash 中删除数据？假设我需要特权...

帕维尔

hive hdfs

psm*_*ith

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

hbase中存储的hbase命名空间/表数据在哪里？

hbase在哪里存储命名空间/表的数据文件？我发现这篇文章:Hbase如何编写其数据以及我需要一个完整路径位置,只是为了将权限分离到不同的命名空间.

在Hive文件在hive_warehouse_path/database/table/partition中,我在Hbase中寻找相同的文件.

你能帮我吗？

关于Pawel

编辑:顺便说一句,我发现了一个关于HBase中文件结构的有趣幻灯片:http://www.slideshare.net/enissoz/hbase-and-hdfs-understanding-filesystem-usage

hadoop hbase

psm*_*ith

2016 12-13

5
推荐指数

2
解决办法

2万
查看次数

Hive中有什么功能可以在Oracle中进行解码？

我正在寻找一个像Oracle的DECODE那样具有tab单个列的表的字符串函数col

col
----
a
b
c
d

Run Code Online (Sandbox Code Playgroud)

用一个简单的查询：

select decode(col,'a',1,'b',2',9) dec from tab

Run Code Online (Sandbox Code Playgroud)

我希望这样的结果：

dec
---
1
2
9
9

Run Code Online (Sandbox Code Playgroud)

我在《语言手册》中找不到任何内置函数。有没有可以模拟DECODE的UDF？

我不想使用case子句。

问候
帕维尔

hive

psm*_*ith

lucky-day

5
推荐指数

2
解决办法

1万
查看次数

在oozie pig configuraction action中的<job-tracker>和<name-node> - 我在哪里可以找到它们？

我正在尝试运行我的第一个oozie工作流程,简单的<pig>操作.
任何人都可以帮助这两个标签:

    <job-tracker>[JOB-TRACKER]</job-tracker>
    <name-node>[NAME-NODE]</name-node>

Run Code Online (Sandbox Code Playgroud)

据我了解,参数表示现有配置.
我正在使用预先配置的环境,所以请您帮助在哪里找到这些值？

关心
帕维尔

hadoop flow apache-pig oozie

psm*_*ith

lucky-day

4
推荐指数

1
解决办法

3776
查看次数

标签统计

apache-pig ×3

hadoop ×3

hive ×3

hbase ×2

oozie ×2

flow ×1

hcatalog ×1

hdfs ×1

oracle-sqldeveloper ×1

标签 统计

小编psm_ith的帖子

标签统计