我已经通过Cloudera Manager安装了一个集群,现在我需要手动启动集群.
我一直在使用以下命令:
$ sudo -u hdfs hadoop namenode / datanode / jobtracker
Run Code Online (Sandbox Code Playgroud)
但随后dfs.name.dir就成立了/tmp.我似乎无法找到cloudera经理在哪里有HDFS配置文件.在那些/usr/lib/hadoop-02*/conf似乎是最小的.他们错过了dfs.name.dir我正在寻找的东西.顺便说一下,我在RHLE 6系统上.懒惰,我虽然可以复制cloudera经理的HDFS配置文件,所以我不必手动创建它们,将它们复制到6个节点:)
谢谢
通常,我可以show partitions <table>在蜂巢中做。但是当它是镶木地板时,蜂巢无法理解它。我可以转到hdfs并检查dir结构,但这并不理想。有什么更好的方法吗?
标题有点奇怪,因为我在解决问题时遇到了困难.我在Hadoop 2.0.0-cdh4.4.0和hive 0.10上使用我的解决方案没有问题.
第一次尝试:
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.hadoop.hive.serde2.objectinspector.primitive.AbstractPrimitiveJavaObjectInspector.<init>(Lorg/apache/hadoop/hive/serde2/objectinspector/primitive/PrimitiveObjectInspectorUtils$PrimitiveTypeEntry;)V
Run Code Online (Sandbox Code Playgroud)
第二次尝试:
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Could not initialize class org.openx.data.jsonserde.objectinspector.JsonObjectInspectorFactory
Run Code Online (Sandbox Code Playgroud)
我可以用这个SerDe创建一个表:https://github.com/cloudera/cdh-twitter-example
我用水槽的推文创建了一个外部表.我不能做"SELECT*FROM tweets;"
FAILED:RuntimeException org.apache.hadoop.hive.ql.metadata.HiveException:异常java.lang.ClassNotFoundException失败:com.cloudera.hive.serde.JSONSerDejava.lang.RuntimeException:java.lang.ClassNotFoundException:com.cloudera. hive.serde.JSONSerDe
我可以做SELECT id,text FROM tweets;
我不能自己加入这张桌子:
执行日志:/tmp/jochen.debie/jochen.debie_20140311121313_164611a9-b0d8-4e53-9bda-f9f7ac342aaf.log 2014-03-11 12:13:30开始启动本地任务来处理地图连接; 最大内存= 257294336执行失败并退出状态:2获取错误信息
任务失败!任务ID:第5阶段
提到执行日志:
2014-03-11 12:13:30,331 ERROR mr.MapredLocalTask (MapredLocalTask.java:executeFromChildJVM(324)) - Hive Runtime Error: Map local work failed
org.apache.hadoop.hive.ql.metadata.HiveException: Failed with exception java.lang.ClassNotFoundException: com.cloudera.hive.serde.JSONSerDejava.lang.RuntimeException: java.lang.ClassNotFoundException: com.cloudera.hive.serde.JSONSerDe
Run Code Online (Sandbox Code Playgroud)
有谁知道如何解决这个问题或者至少告诉我问题在哪里?
编辑:我在Hadoop 2.0.0-cdh4.4.0和hive 0.10上构建serde是不是一个问题?
当我显示表时,我在Impala中看到一个表"test";
我想制作一个"测试"表的副本,以便它完全重复,但命名为"test_copy".是否有我可以执行的impala查询来执行此操作?如果没有,我该怎么做?
我正在尝试使用此代码使用hbase过滤器,
hbase(main):001:0>扫描'students',{FILTER => SingleColumnValueFilter.new(Bytes.toBytes('account'),Bytes.toBytes('name'),CompareFilter :: CompareOp.valueOf('EQUAL' ),BinaryComparator.new(Bytes.toBytes( 'EMP1')))}
并且此代码给出错误,如 NameError:uninitialized constant SingleColumnValueFilter
请让我知道我做错了什么或我需要做什么来获得过滤结果.
再次尝试并完成所有必需的步骤,但是在安装选定的Parcel时进行集群安装时,始终会显示每个主机的运行状况不良。设置从未完全完成。
我正在使用virtualbox在CentOS 6.7上安装cm 5.5。
错误
主机状况不佳cm.feuni.edu
主机状况不佳dn1.feuni.edu
主机状况不佳dn2.feuni.edu
主机状况不佳nn1.feuni.edu
主机状况不佳nn2.feuni.edu
主机状况不佳rm.feuni.edu
上述错误显示在第6步中,安装程序说
所选宗地正在下载并安装在群集中的所有主机上
在上一步5中,所有主机最终都完成了心跳检查
内存分配cm 8GB其他所有内存1GB
我在其他任何地方都找不到正确的答案。是什么原因导致身体不好?
代码:
LivyClient client = null;
try
{
String livyUrl = "http://dummy16814.zycus.net:8998";
client = new LivyClientBuilder().setURI(new URI(livyUrl)).build();
String piJar = "E:\\livy_old.jar";
System.err.printf("Uploading %s to the Spark context...\n", piJar);
client.uploadJar(new File(piJar)).get();
int samples = 10;
System.err.printf("Running PiJob with %d samples...\n", samples);
double pi = client.submit(new PiJob()).get();
System.out.println("Pi is roughly: " + pi);
}
finally
{
client.stop(true);
}
Run Code Online (Sandbox Code Playgroud)
上传jar时遇到异常
正在将E:\ livy_old.jar上载到Spark上下文...线程“主”中的异常java.util.concurrent.ExecutionException:java.io.IOException:错误的请求:“要求失败:本地路径/root/.livy-sessions /61a5e39c-d199-4bb8-967b-960b4e3e9ee3/livy_old.jar无法添加到用户会话。” 在java.util.concurrent.FutureTask.report(FutureTask.java:122)在java.util.concurrent.FutureTask.get(FutureTask.java:192)在com.zycus.spark.PiJob.main(PiJob.java:64) )由以下原因引起:java.io.IOException:错误的请求:“请求失败:本地路径/root/.livy-sessions/61a5e39c-d199-4bb8-967b-960b4e3e9ee3/livy_old.jar无法添加到用户会话中。” com.cloudera.livy.client.http.LivyConnection上的com.cloudera.livy.client.http.LivyConnection.sendRequest(LivyConnection.java:197)处。
我正在使用Spark 1.6(Cloudera 5.8.2),并尝试了以下方法来配置ORC属性。但这不会影响输出。
以下是我尝试过的代码段。
DataFrame dataframe =
hiveContext.createDataFrame(rowData, schema);
dataframe.write().format("orc").options(new HashMap(){
{
put("orc.compress","SNAPPY");
put("hive.exec.orc.default.compress","SNAPPY");
put("orc.compress.size","524288");
put("hive.exec.orc.default.buffer.size","524288");
put("hive.exec.orc.compression.strategy", "COMPRESSION");
}
}).save("spark_orc_output");
Run Code Online (Sandbox Code Playgroud)
除此之外,我还尝试了在hive-site.xml和hiveContext对象中设置的这些属性。
配置单元上的hive --orcfiledump确认未应用配置。下面是Orcfiledump代码段。
Compression: ZLIB
Compression size: 262144
Run Code Online (Sandbox Code Playgroud) 我在Hive(SQL)中遇到了大数据问题.
SELECT genre, COUNT(*) AS unique_count
FROM table_name
GROUP BY genre
Run Code Online (Sandbox Code Playgroud)
给出的结果如下:
genre | unique_count
----------------------------------
Romance,Crime,Drama,Law | 1560
Crime,Drama,Law,Romance | 895
Law,Romance,Crime,Drama | 942
Adventure,Action | 3250
Action,Adventure | 910
Run Code Online (Sandbox Code Playgroud)
我想要的是对类型ASC | DESC中的元素进行排序并获得结果
genre | unique_count
----------------------------------
Crime,Drama,Law,Romance | 3397
Action,Adventure | 4160
Run Code Online (Sandbox Code Playgroud)
我可以用Python做到这一点,但我有超过200 Million数据行.我不知道有什么合理的方法可以移动这些数据.那我该怎么做呢?
假设我有一个可变长度的字符串,例如:
'633000000HIQWA4:005160000UT334'
'00YYSKSG004:00YJDJJDA3443'
'300SGDK112WA4:00KFJJD900'
Run Code Online (Sandbox Code Playgroud)
哪个impala字符串函数用于在:
for之后提取文本,例如:
'005160000UT334'
'00YJDJJDA3443'
'00KFJJD900'
Run Code Online (Sandbox Code Playgroud) cloudera ×10
hadoop ×5
impala ×4
hive ×3
java ×2
apache-spark ×1
hbase ×1
install ×1
installation ×1
sql ×1