标签: cloudera

Oozie工作流程:找不到Hive表但它确实存在

我有一个oozie工作流程,在4台机器的CDH4集群上运行(一个掌握一切,三个"哑"工人).hive Metastore使用mysql(驱动程序存在)在master上运行,oozie服务器也使用mysql在master上运行.使用Web界面,我可以按预期导入和查询配置单元,但是当我在oozie工作流程中执行相同的查询时,它会失败.即使添加"IF EXISTS"也会导致下面的错误.我尝试将连接信息作为属性添加到hive作业,但没有任何成功.

任何人都可以给我一个提示吗?我错过了什么吗?需要进一步的信息吗?

这是作业日志的输出:

  Script [drop.sql] content:
  ------------------------
  DROP TABLE IF EXISTS performance_log;

  ------------------------

  Hive command arguments :
  -f
  drop.sql

  =================================================================

  >>> Invoking Hive command line now >>>

  Intercepting System.exit(10001)

  <<< Invocation of Main class completed <<<

  Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.HiveMain], exit code [10001]

  Oozie Launcher failed, finishing Hadoop job gracefully
Run Code Online (Sandbox Code Playgroud)

这是错误消息:

  FAILED: SemanticException [Error 10001]: Table not found performance_log
  Intercepting System.exit(10001)
  Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.HiveMain], exit code [10001]
Run Code Online (Sandbox Code Playgroud)

hive cloudera oozie

6
推荐指数
1
解决办法
1万
查看次数

Hadoop使用mongo-hadoop流式传输到python

我正在尝试使用mongo-hadoop获取python的map-reduce功能.Hadoop正在工作,hadoop流媒体正在使用python和mongo-hadoop适配器正在工作.但是,使用python的mongo-hadoop流示例不起作用.当尝试在流/示例/财务中运行示例时,我收到以下错误:

$用户@主机:〜/ GIT中/蒙戈-的hadoop /流$ hadoop的jar目标/蒙戈-Hadoop的流组装-1.0.1.jar -mapper实例/金库/ mapper.py -reducer实例/金库/ reducer.py -inputformat com.mongodb.hadoop.mapred.MongoInputFormat -outputformat com.mongodb.hadoop.mapred.MongoOutputFormat -inputURI mongodb://127.0.0.1/mongo_hadoop.yield_historical.in -outputURI mongodb://127.0.0.1/mongo_hadoop.yield_historical .streaming.out

13/04/09 11:54:34 INFO streaming.MongoStreamJob: Running

13/04/09 11:54:34 INFO streaming.MongoStreamJob: Init

13/04/09 11:54:34 INFO streaming.MongoStreamJob: Process Args

13/04/09 11:54:34 INFO streaming.StreamJobPatch: Setup Options'

13/04/09 11:54:34 INFO streaming.StreamJobPatch: PreProcess Args

13/04/09 11:54:34 INFO streaming.StreamJobPatch: Parse Options

13/04/09 11:54:34 INFO streaming.StreamJobPatch: Arg: '-mapper'

13/04/09 11:54:34 INFO streaming.StreamJobPatch: Arg: 'examples/treasury/mapper.py'

13/04/09 11:54:34 INFO streaming.StreamJobPatch: Arg: '-reducer'

13/04/09 11:54:34 INFO streaming.StreamJobPatch: Arg: 'examples/treasury/reducer.py'

13/04/09 11:54:34 INFO streaming.StreamJobPatch: …
Run Code Online (Sandbox Code Playgroud)

python hadoop mongodb cloudera

6
推荐指数
1
解决办法
917
查看次数

在没有cloudera管理器的情况下安装cloudera impala

请在没有cloudera经理的情况下提供在ubuntu中安装imapala的链接.无法安装官方链接.

无法使用这些查询找到包impala:

sudo apt-get install impala             # Binaries for daemons
sudo apt-get install impala-server      # Service start/stop script
sudo apt-get install impala-state-store # Service start/stop script
Run Code Online (Sandbox Code Playgroud)

hadoop hive cloudera impala

6
推荐指数
1
解决办法
6698
查看次数

在Impala中实现CREATE AS SELECT

请帮助我了解如何实施 CREATE TABLE AS SELECT

简单来说create table t1 as select * from t2; 我可以实现为

Create table t1 like t2;
insert into t1 as select * from t2;

但是如何实施 create table t1 as select c1,c2,c3 from t2;

有没有办法在黑斑羚中实现这个?

cloudera impala

6
推荐指数
1
解决办法
6511
查看次数

Hive 始终以本地模式运行映射作业

我们正在使用 Hive (0.13.0) 测试多节点 hadoop 集群 (2.4.0)。集群工作正常,但是当我们在 hive 中运行查询时,映射作业总是在本地执行。例如:

没有 hive-site.xml(实际上,除了默认值之外没有任何配置文件)我们设置了 mapred.job.tracker:

hive> SET mapred.job.tracker=192.168.7.183:8032;
Run Code Online (Sandbox Code Playgroud)

并运行查询:

hive> select count(1) from suricata;

Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
OpenJDK 64-Bit Server VM …
Run Code Online (Sandbox Code Playgroud)

hive cloudera cloudera-cdh

6
推荐指数
1
解决办法
3189
查看次数

NameNode地址的URI无效

我试图建立一个ClouderaHadoop集群,与包含一个主节点namenodesecondarynamenode并且jobtracker,和含有另外两个节点datanodetasktracker。该Cloudera版本是4.6,操作系统是Ubuntu的精确64。此外,该集群是从AWS实例创建的。ssh passwordless还已经Java安装了Oracle-7。

每当执行sudo service hadoop-hdfs-namenode start我都会得到:

2014-05-14 05:08:38,023 FATAL org.apache.hadoop.hdfs.server.namenode.NameNode: Exception in namenode join
java.lang.IllegalArgumentException: Invalid URI for NameNode address (check fs.defaultFS): file:/// has no authority.
        at org.apache.hadoop.hdfs.server.namenode.NameNode.getAddress(NameNode.java:329)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.getAddress(NameNode.java:317)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.getRpcServerAddress(NameNode.java:370)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.loginAsNameNodeUser(NameNode.java:422)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:442)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:621)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:606)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1177)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1241)
Run Code Online (Sandbox Code Playgroud)

我的core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. …
Run Code Online (Sandbox Code Playgroud)

java xml hadoop cloudera

6
推荐指数
2
解决办法
1万
查看次数

更改Hive数据库位置

有没有办法改变数据库指向的位置?

我尝试了以下方法:

  1. alter database <my_db> set DBPROPERTIES('hive.warehouse.dir'='<new_hdfs_loc>');

  2. alter database <my_db> set DBPROPERTIES('location'='<new_hdfs_loc>');

  3. alter database <my_db> set location '<new_hdfs_loc>';

前两个alter语句只更改了DB属性,但数据库仍指向同一位置; 而第三个alter语句给了我语义错误.

任何帮助将受到高度赞赏.

hadoop hive hdfs cloudera

6
推荐指数
1
解决办法
2万
查看次数

hbase.master.port 以编程方式覆盖?

我从 cloudera 5.3.3 发行版安装了 hbase,当我运行 hbase 时,一切似乎都工作正常......

当我尝试通过 /etc/hbase/conf/hbase-site.xml 分配 hbase.master.port 时,它不会从那里选择它。

我从主节点信息http://MASTERNODE:60010/conf看到这一点

<property>
  <name>hbase.master.port</name>
  <value>0</value>
  <source>programatically</source>
</property>
Run Code Online (Sandbox Code Playgroud)

hbase发行版:0.98.6-cdh5.3.3

这个“以编程方式”是什么意思以及如何禁用/覆盖它?

hadoop hbase cloudera

6
推荐指数
1
解决办法
1020
查看次数

纱线容器内存不足

我的纱线容器内存不足:此特定容器运行 Apache-Spark 驱动程序节点。

我不明白的部分:我将驱动程序的堆大小限制为 512MB(您可以在下面的错误消息中看到这一点)。但是纱线容器抱怨内存> 1GB(另见下面的消息)。您可以验证 yarn 是否正在启动 java 是使用 Xmx512m 运行的。我的容器设置为 1GB 内存,增量为 0.5GB。此外,我托管纱线容器的物理机每个都有 32GB。我通过 SSH 连接到其中一台物理机器,发现它有很多可用内存......

另一个奇怪的事情是,java 没有抛出 OutOfMemory 异常。当我查看驱动程序日志时,我发现它最终从 yarn 获得了一个 SIGTERM,然后很好地关闭了。如果 Yarn 中的 java 进程超过 512MB,在它尝试从 yarn 分配 1GB 之前,我不应该在 Java 中收到 OutOfMemory 异常吗?

我还尝试使用 1024m 堆运行。那个时候,容器崩溃了,使用了 1.5GB。这一直发生。很明显,容器有能力在 1GB 限制之外再分配 0.5GB。(很合乎逻辑,因为物理机有 30GB 的空闲内存)

除了 java 之外,YARN 容器内是否还有其他东西可能会占用额外的 512MB?

我在 Yarn 上使用 Apache spark 运行 CDH 5.4.1。集群上的java版本也升级到oracle Java8。看到有人说java8中默认的maxPermSize已经改了,但是我几乎不相信它会占用512MB......

纱线错误信息:

Diagnostics: Container [pid=23335,containerID=container_1453125563779_0160_02_000001] is running beyond physical memory limits. Current usage: 1.0 GB of 1 GB physical memory …
Run Code Online (Sandbox Code Playgroud)

java hadoop cloudera hadoop-yarn apache-spark

6
推荐指数
2
解决办法
1万
查看次数

HDFS 作为 cloudera 快速入门 docker 中的卷

我对 hadoop 和 docker 都很陌生。

我一直致力于扩展 cloudera/quickstart docker 镜像 docker 文件,并希望挂载一个目录表单主机并将其映射到 hdfs 位置,以便提高性能并在本地保留数据。

当我在任何地方安装卷时-v /localdir:/someDir一切正常,但这不是我的目标。但是当我做-v /localdir:/var/lib/hadoop-hdfsdatanode 和 namenode 都无法启动时,我得到:“cd /var/lib/hadoop-hdfs:权限被拒绝”。当我-v /localdir:/var/lib/hadoop-hdfs/cache没有权限被拒绝但 datanode 和 namenode,或者其中之一在启动 docker 映像时无法启动时,我在日志文件中找不到任何关于其原因的有用信息。

也许有人遇到了这个问题,或者有其他一些解决方案将 hdfs 放在 docker 容器之外?

hadoop bigdata hdfs cloudera docker

6
推荐指数
1
解决办法
1620
查看次数