标签: cloudera

找到Cloudera Manager HDFS配置文件

我已经通过Cloudera Manager安装了一个集群,现在我需要手动启动集群.

我一直在使用以下命令:

$ sudo -u hdfs hadoop namenode / datanode / jobtracker
Run Code Online (Sandbox Code Playgroud)

但随后dfs.name.dir就成立了/tmp.我似乎无法找到cloudera经理在哪里有HDFS配置文件.在那些/usr/lib/hadoop-02*/conf似乎是最小的.他们错过了dfs.name.dir我正在寻找的东西.顺便说一下,我在RHLE 6系统上.懒惰,我虽然可以复制cloudera经理的HDFS配置文件,所以我不必手动创建它们,将它们复制到6个节点:)

谢谢

hadoop cloudera cloudera-manager

3
推荐指数
1
解决办法
6832
查看次数

有没有办法在Cloudera impala上显示分区?

通常,我可以show partitions <table>在蜂巢中做。但是当它是镶木地板时,蜂巢无法理解它。我可以转到hdfs并检查dir结构,但这并不理想。有什么更好的方法吗?

cloudera impala

3
推荐指数
2
解决办法
5965
查看次数

Serde问题与Hive 0.12和Hadoop 2.2.0-cdh5.0.0-beta2有关

标题有点奇怪,因为我在解决问题时遇到了困难.我在Hadoop 2.0.0-cdh4.4.0和hive 0.10上使用我的解决方案没有问题.

第一次尝试:

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.hadoop.hive.serde2.objectinspector.primitive.AbstractPrimitiveJavaObjectInspector.<init>(Lorg/apache/hadoop/hive/serde2/objectinspector/primitive/PrimitiveObjectInspectorUtils$PrimitiveTypeEntry;)V
Run Code Online (Sandbox Code Playgroud)

第二次尝试:

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Could not initialize class org.openx.data.jsonserde.objectinspector.JsonObjectInspectorFactory
Run Code Online (Sandbox Code Playgroud)
  • 我可以用这个SerDe创建一个表:https://github.com/cloudera/cdh-twitter-example

  • 我用水槽的推文创建了一个外部表.我不能做"SELECT*FROM tweets;"

    FAILED:RuntimeException org.apache.hadoop.hive.ql.metadata.HiveException:异常java.lang.ClassNotFoundException失败:com.cloudera.hive.serde.JSONSerDejava.lang.RuntimeException:java.lang.ClassNotFoundException:com.cloudera. hive.serde.JSONSerDe

  • 我可以做SELECT id,text FROM tweets;

  • 我可以做一个SELECT COUNT(*)FROM推文;
  • 我不能自己加入这张桌子:

    执行日志:/tmp/jochen.debie/jochen.debie_20140311121313_164611a9-b0d8-4e53-9bda-f9f7ac342aaf.log 2014-03-11 12:13:30开始启动本地任务来处理地图连接; 最大内存= 257294336执行失败并退出状态:2获取错误信息

    任务失败!任务ID:第5阶段

提到执行日志:

2014-03-11 12:13:30,331 ERROR mr.MapredLocalTask (MapredLocalTask.java:executeFromChildJVM(324)) - Hive Runtime Error: Map local work failed
org.apache.hadoop.hive.ql.metadata.HiveException: Failed with exception java.lang.ClassNotFoundException: com.cloudera.hive.serde.JSONSerDejava.lang.RuntimeException: java.lang.ClassNotFoundException: com.cloudera.hive.serde.JSONSerDe
Run Code Online (Sandbox Code Playgroud)

有谁知道如何解决这个问题或者至少告诉我问题在哪里?

编辑:我在Hadoop 2.0.0-cdh4.4.0和hive 0.10上构建serde是不是一个问题?

hadoop hive cloudera

3
推荐指数
1
解决办法
5932
查看次数

如何用impala-shell或其他方法复制cloudera impala表?

当我显示表时,我在Impala中看到一个表"test";

我想制作一个"测试"表的副本,以便它完全重复,但命名为"test_copy".是否有我可以执行的impala查询来执行此操作?如果没有,我该怎么做?

cloudera impala

3
推荐指数
2
解决办法
4743
查看次数

NameError:未初始化的常量SingleColumnValueFilter

我正在尝试使用此代码使用hbase过滤器,

hbase(main):001:0>扫描'students',{FILTER => SingleColumnValueFilter.new(Bytes.toBytes('account'),Bytes.toBytes('name'),CompareFilter :: CompareOp.valueOf('EQUAL' ),BinaryComparator.new(Bytes.toBytes( 'EMP1')))}

并且此代码给出错误,如 NameError:uninitialized constant SingleColumnValueFilter

请让我知道我做错了什么或我需要做什么来获得过滤结果.

hbase cloudera

3
推荐指数
1
解决办法
3979
查看次数

安装期间cloudera主机运行状况不良

再次尝试并完成所有必需的步骤,但是在安装选定的Parcel时进行集群安装时,始终会显示每个主机的运行状况不良。设置从未完全完成。

我正在使用virtualbox在CentOS 6.7上安装cm 5.5。

错误

主机状况不佳cm.feuni.edu

主机状况不佳dn1.feuni.edu

主机状况不佳dn2.feuni.edu

主机状况不佳nn1.feuni.edu

主机状况不佳nn2.feuni.edu

主机状况不佳rm.feuni.edu

上述错误显示在第6步中,安装程序说

所选宗地正在下载并安装在群集中的所有主机上

在上一步5中,所有主机最终都完成了心跳检查

内存分配cm 8GB其他所有内存1GB

我在其他任何地方都找不到正确的答案。是什么原因导致身体不好?

installation install cloudera cloudera-manager

3
推荐指数
1
解决办法
4427
查看次数

无法通过livy客户端将jar上传到livy会话

代码:

LivyClient client = null;
try
{
  String livyUrl = "http://dummy16814.zycus.net:8998";
  client = new LivyClientBuilder().setURI(new URI(livyUrl)).build();

  String piJar = "E:\\livy_old.jar";
  System.err.printf("Uploading %s to the Spark context...\n", piJar);
  client.uploadJar(new File(piJar)).get();

  int samples = 10;
  System.err.printf("Running PiJob with %d samples...\n", samples);

  double pi = client.submit(new PiJob()).get();
  System.out.println("Pi is roughly: " + pi);
}
finally
{
  client.stop(true);
}
Run Code Online (Sandbox Code Playgroud)

上传jar时遇到异常

正在将E:\ livy_old.jar上载到Spark上下文...线程“主”中的异常java.util.concurrent.ExecutionException:java.io.IOException:错误的请求:“要求失败:本地路径/root/.livy-sessions /61a5e39c-d199-4bb8-967b-960b4e3e9ee3/livy_old.jar无法添加到用户会话。” 在java.util.concurrent.FutureTask.report(FutureTask.java:122)在java.util.concurrent.FutureTask.get(FutureTask.java:192)在com.zycus.spark.PiJob.main(PiJob.java:64) )由以下原因引起:java.io.IOException:错误的请求:“请求失败:本地路径/root/.livy-sessions/61a5e39c-d199-4bb8-967b-960b4e3e9ee3/livy_old.jar无法添加到用户会话中。” com.cloudera.livy.client.http.LivyConnection上的com.cloudera.livy.client.http.LivyConnection.sendRequest(LivyConnection.java:197)处。

java cloudera

3
推荐指数
2
解决办法
3653
查看次数

无法在Spark中配置ORC属性

我正在使用Spark 1.6(Cloudera 5.8.2),并尝试了以下方法来配置ORC属性。但这不会影响输出。

以下是我尝试过的代码段。

 DataFrame dataframe =
                hiveContext.createDataFrame(rowData, schema);
dataframe.write().format("orc").options(new HashMap(){
            {

                put("orc.compress","SNAPPY");
                put("hive.exec.orc.default.compress","SNAPPY");

                put("orc.compress.size","524288");
                put("hive.exec.orc.default.buffer.size","524288");


                put("hive.exec.orc.compression.strategy", "COMPRESSION");

            }
        }).save("spark_orc_output");
Run Code Online (Sandbox Code Playgroud)

除此之外,我还尝试了在hive-site.xml和hiveContext对象中设置的这些属性。

配置单元上的hive --orcfiledump确认未应用配置。下面是Orcfiledump代码段。

Compression: ZLIB
Compression size: 262144
Run Code Online (Sandbox Code Playgroud)

java hadoop hive cloudera apache-spark

3
推荐指数
1
解决办法
3905
查看次数

(Hive,SQL) - 如何对列内的字符串列表进行排序?

我在Hive(SQL)中遇到了大数据问题.

SELECT genre, COUNT(*) AS unique_count
FROM table_name
GROUP BY genre
Run Code Online (Sandbox Code Playgroud)

给出的结果如下:

genre           |   unique_count
----------------------------------
Romance,Crime,Drama,Law | 1560
Crime,Drama,Law,Romance | 895
Law,Romance,Crime,Drama | 942
Adventure,Action        | 3250
Action,Adventure        | 910
Run Code Online (Sandbox Code Playgroud)

我想要的是对类型ASC | DESC中的元素进行排序并获得结果

genre           |   unique_count
----------------------------------
Crime,Drama,Law,Romance | 3397
Action,Adventure        | 4160
Run Code Online (Sandbox Code Playgroud)

我可以用Python做到这一点,但我有超过200 Million数据行.我不知道有什么合理的方法可以移动这些数据.那我该怎么做呢?

sql hadoop hive cloudera impala

3
推荐指数
1
解决办法
3943
查看次数

impala 字符串函数在给定的分隔符后提取文本

假设我有一个可变长度的字符串,例如:

'633000000HIQWA4:005160000UT334'
'00YYSKSG004:00YJDJJDA3443'
'300SGDK112WA4:00KFJJD900'
Run Code Online (Sandbox Code Playgroud)

哪个impala字符串函数用于在: for之后提取文本,例如:

'005160000UT334'
'00YJDJJDA3443'
'00KFJJD900'
Run Code Online (Sandbox Code Playgroud)

hadoop user-defined-functions cloudera impala

3
推荐指数
1
解决办法
4650
查看次数