有没人试过这个?谷歌出现了一个完整的空白,到目前为止这是一个艰难的过程(我很擅长制作,蚂蚁等).
在下载了大量的依赖项之后,一些坦率地使用'ln -s'和大量的'sudo'......我终于遇到了一个我无法通过的错误.
$ cd /Users/bob/Downloads/hue-1.2.0
$ sudo make install
[snip]
--- Building Hadoop plugins
cd /Users/bob/Downloads/hue-1.2.0/desktop/libs/hadoop/java && ant -Dbuild.dir=/Users/bob/Downloads/hue-1.2.0/desktop/libs/hadoop/build/java -Dhadoop.home=/usr/lib/hadoop -Dplugins.version=1.2.0 jar
Buildfile: /Users/bob/Downloads/hue-1.2.0/desktop/libs/hadoop/java/build.xml
init:
compile-gen:
[echo] contrib: hue
[javac] /Users/bob/Downloads/hue-1.2.0/desktop/libs/hadoop/java/build.xml:69: warning: 'includeantruntime' was not set, defaulting to build.sysclasspath=last; set to false for repeatable builds
[javac] Compiling 55 source files to /Users/bob/Downloads/hue-1.2.0/desktop/libs/hadoop/build/java/classes
[javac] Note: Some input files use unchecked or unsafe operations.
[javac] Note: Recompile with -Xlint:unchecked for details.
compile:
[echo] contrib: hue
[echo] src dir: /Users/bob/Downloads/hue-1.2.0/desktop/libs/hadoop/java/src/java
[javac] /Users/bob/Downloads/hue-1.2.0/desktop/libs/hadoop/java/build.xml:85: …Run Code Online (Sandbox Code Playgroud) 我是新手hive,可以使用一些提示.
我试图从导出查询结果hive作为csv.当我尝试将它们从CLI中移出时:
hive -e 'select * from table'>OutPut.txt
Run Code Online (Sandbox Code Playgroud)
我得到一个包含所有记录但没有列标题的文本文件.有没有人有关于如何将带有列标题的查询结果导出到csv文件的提示?
如果我在色调中运行查询,然后下载结果,csv我得到一个csv列标题,但没有记录.如果有人有关于如何从记录和列标题的hue下载查询结果的提示,我将非常感激.
我已经安装了hue并且hue中的文件浏览器无法正常工作并且正在抛出"服务器错误(500)"
来自error.log的数据
webhdfs ERROR Failed to determine superuser of WebHdfs at http://namenode:50070/webhdfs/v1: SecurityException: Failed to obtain user group information: org.apache.hadoop.security.authorize.AuthorizationException: User: hue is not allowed to impersonate hue (error 401)
Traceback (most recent call last):
File "/home/hduser/huef/hue/desktop/libs/hadoop/src/hadoop/fs/webhdfs.py", line 108, in superuser
sb = self.stats('/')
File "/home/hduser/huef/hue/desktop/libs/hadoop/src/hadoop/fs/webhdfs.py", line 188, in stats
res = self._stats(path)
File "/home/hduser/huef/hue/desktop/libs/hadoop/src/hadoop/fs/webhdfs.py", line 182, in _stats
raise ex
Run Code Online (Sandbox Code Playgroud)
注意:我已将以下内容添加到core-site.xml,并启用了webhdfs
<property>
<name>hadoop.proxyuser.hue.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hue.groups</name>
<value>*</value>
</property>
Run Code Online (Sandbox Code Playgroud)
当我尝试通过hue中的oozie访问hdfs文件位置时出错
An error occurred: SecurityException: Failed to obtain user group …Run Code Online (Sandbox Code Playgroud) 我正在提交一个oozie工作流程,我在Hue设计它包含一些java动作.
Hue提交并尝试执行oozie工作流程,我总是得到以下错误.
Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.JavaMain], main() threw exception, begin > end in range (begin, end)
Caused by java.lang.IllegalArgumentException: begin > end in range (begin, end): (1399708804155, 1399694415805)
Run Code Online (Sandbox Code Playgroud)
我不知道它意味着什么以及我应该怎么做.从错误消息中,我能够推断工作流的提交时间晚于完成时间.
但我不知道造成这种情况的原因以及解决这个问题需要做些什么.
对此的任何输入都会有所帮助.
我在Hue使用oozie编辑器调用bash shell脚本.
我在工作流中使用了shell动作,并在shell命令中尝试了以下不同的选项:
但所有这些选项都给出了以下错误:
无法运行程序"sec_test_oozie.sh"(在目录"/ data/hadoop/yarn/local/usercache/user/appcache/application_1399542362142_0086/container_1399542365422_0086_01_000002"):java.io.IOException:error = 2,没有这样的文件或目录
我应该如何给出shell脚本执行命令?shell脚本文件应该驻留在哪里?
我在Scala中编写了一个使用Spark的应用程序.
该应用程序包含两个模块 - App包含具有不同逻辑的类的Env模块,以及包含环境和系统初始化代码的模块,以及实用程序功能.
入口点位于Env初始化之后,它在App(根据args,使用Class.forName)中创建一个类并执行逻辑.
模块被导出到2个不同的JAR(即env.jar和app.jar).
当我在本地运行应用程序时,它执行得很好.下一步是将应用程序部署到我的服务器.我使用Cloudera的CDH 5.4.
我使用Hue使用Spark任务创建一个新的Oozie工作流,其中包含以下参数:
yarnclustermyApplib/env.jar,lib/app.jarenv.Main在Env模块中)app.AggBlock1Task然后我将2个JAR放在lib工作流文件夹(/user/hue/oozie/workspaces/hue-oozie-1439807802.48)中的文件夹中.
当我运行工作流时,它会抛出一个FileNotFoundException并且应用程序不会执行:
java.io.FileNotFoundException: File file:/cloudera/yarn/nm/usercache/danny/appcache/application_1439823995861_0029/container_1439823995861_0029_01_000001/lib/app.jar,lib/env.jar does not exist
Run Code Online (Sandbox Code Playgroud)
然而,当我离开星火主和模式参数为空,这一切工作正常,但是当我检查spark.master编程设置为local[*],而不是yarn.此外,在观察日志时,我在Oozie Spark动作配置下遇到了这个:
--master
null
--name
myApp
--class
env.Main
--verbose
lib/env.jar,lib/app.jar
app.AggBlock1Task
Run Code Online (Sandbox Code Playgroud)
我假设我做得不对 - 没有设置Spark master和mode参数并且运行应用程序spark.master设置为local[*].据我所知,SparkConf …
我正在使用Hue 3.9和Hadoop 2.6.2集群.这些电脑都有Ubuntu 14.04.我能够成功安装Hue,但从Web UI查看hue时似乎有一些错误.我试图一次解决这些问题,所以我真的只关心现在的第一个问题:
hadoop.hdfs_clusters.default.webhdfs_url Current value: http://localhost:50070/webhdfs/v1
Failed to access filesystem root
Run Code Online (Sandbox Code Playgroud)
我一直在看这个错误一段时间,我无法弄清楚为什么它无法访问.我认为解决方案可能会在hue.ini配置文件中显示出来,但我还没有在文件中找到任何有用的东西.我在文件中也指定了用户"hduser",而hduser是机器上sudoers的成员.
任何帮助表示赞赏!
我是CDH的新手(我使用的当前版本是5.7.1)
我已经添加了HBase thrift角色并在Hue中设置,但我仍然遇到以下问题.

HBase Browser Failed to authenticate to HBase Thrift Server, check authentication configurations.
Run Code Online (Sandbox Code Playgroud)
有人可以帮我吗?
我在Hue中运行一个配置单元表的求和函数,并获得NaN的返回值。
这是我的代码:
select sum(v1) from hivedb.tb1;
我不知道为什么它会给我NaN结果。我检查了我的任何v1值是否为空:
select * from hivedb.tb1 where v1 is null;
,结果是没有记录具有空值。该表有1亿行,因此我无法手动检查每条记录。
任何帮助表示赞赏。先感谢您!
UPDATE 1 我手动筛选了前1000行,幸运的是在tb1中发现了NaN的一些异常值。这是由于先前步骤中的一些舍入错误造成的。因此,我的问题1可能得到了回答。如果您认为还有其他原因,请随时对此发表评论。
我仍然不知道如何使用一种有效的方法来发现具有NaN值的行。因此,我仍然期待对问题2的任何回答。请随时分享。我感谢您的帮助。
更新2 在下面的“讨论”部分中,通过已接受的答案可以解决该问题。有多种处理方法。
我正在从其他群集中导入工作流,以避免出现冲突:
通过这种方式,它可以顺畅地导入新的一个工作流程以及具有name + timestamp的许多副本。我如何避免这个问题?