我已根据此处给出的说明使用docker安装了cloudera quickstart.
docker run --privileged=true --hostname=quickstart.cloudera -p 7180 -p 8888 -t -i 9f3ab06c7554 /usr/bin/docker-quickstart
Run Code Online (Sandbox Code Playgroud)
你可以看到我正在做-p 7180和-p 8888端口映射.
当容器成功启动时.我看到色调服务启动失败了.但我手动运行它sudo service hue restart,它显示确定.
现在我跑了
/home/cloudera/cloudera-manager --express --force
Run Code Online (Sandbox Code Playgroud)
这个命令成功我收到了一条消息,使用http://cloudera.quickstart:7180连接到CM
现在在我的主机上我做了docker-machine env default,我可以看到输出
export DOCKER_TLS_VERIFY="1"
export DOCKER_HOST="tcp://192.168.99.100:2376"
export DOCKER_CERT_PATH="/Users/abhishek.srivastava/.docker/machine/machines/default"
export DOCKER_MACHINE_NAME="default"
Run Code Online (Sandbox Code Playgroud)
现在我在主机上的浏览器中做了
http://192.168.99.100:7180
http://192.168.99.100:8888
http://quickstart.cloudera:7180
http://quickstart.cloudera:8888
Run Code Online (Sandbox Code Playgroud)
但一切都无法连接到任何页面.所以即使在进行端口转发之后......我也无法从主机访问cloudera管理器或HUE UI.
我正在使用OSX.
我还进入了虚拟机管理器UI并选择了默认的VM.我进入设置 - >网络 - >端口转发.并做了以下条目
但我仍然无法访问cloudera经理和HUE ....
在Cloudera Quickstart VM中尝试更新Hive表中的数据时,我收到此错误.
编译语句时出错:FAILED:SemanticException [错误10294]:尝试使用不支持这些操作的事务管理器进行更新或删除.
我在hive-site.xml文件中添加了一些更改,并重新启动了hive和cloudera.这些是我在Hive-site.xml中所做的更改
hive.support.concurrency – true
hive.enforce.bucketing – true
hive.exec.dynamic.partition.mode – nonstrict
hive.txn.manager –org.apache.hadoop.hive.ql.lockmgr.DbTxnManager
hive.compactor.initiator.on – true
hive.compactor.worker.threads – 1
Run Code Online (Sandbox Code Playgroud) 我试图通过Sqoop将一个包含3200万条记录的表从SQL Server导入Hive.连接是SQL Server成功的.但Map/Reduce作业无法成功执行.它给出以下错误:
18/07/19 04:00:11 INFO client.RMProxy: Connecting to ResourceManager at /127.0.0.1:8032
18/07/19 04:00:27 DEBUG db.DBConfiguration: Fetching password from job credentials store
18/07/19 04:00:27 INFO db.DBInputFormat: Using read commited transaction isolation
18/07/19 04:00:27 DEBUG db.DataDrivenDBInputFormat: Creating input split with lower bound '1=1' and upper bound '1=1'
18/07/19 04:00:28 INFO mapreduce.JobSubmitter: number of splits:1
18/07/19 04:00:29 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1531917395459_0002
18/07/19 04:00:30 INFO impl.YarnClientImpl: Submitted application application_1531917395459_0002
18/07/19 04:00:30 INFO mapreduce.Job: The url to track the job: http://quickstart.cloudera:8088/proxy/application_1531917395459_0002/ …Run Code Online (Sandbox Code Playgroud) 我最近在http://www.cloudera.com上下载了"QuickStart VM"
(确切地说,是虚拟机的版本)这个虚拟机使用centOS(我的电脑是macbook air)我无法完全启动这个虚拟机(和我不知道为什么)我附上了最先进的启动状态的屏幕截图

我有一个火花流应用程序,直到昨天一直运行得很好,突然遇到这个警告.我有相同的环境并使用相同的代码.以下是警告:
05/09 17:13:03 INFO ExecutorAllocationManager:请求16个新的执行程序,因为任务被积压(新的期望总数将是31)16/05/09 17:13:03 INFO ExecutorAllocationManager:请求19个新的执行程序因为任务被积压(new期望的总数将是50)
16/05/09 17:13:12警告YarnScheduler:最初的工作没有接受任何资源; 检查群集UI以确保工作人员已注册并具有足够的资源
16/05/09 17:13:27 WARN YarnScheduler:最初的工作没有接受任何资源; 检查群集UI以确保工作人员已注册并具有足够的资源
我在cloudera 5.5上使用apache spark 1.6.快速入门VM.群集上没有运行任何应用程序来使用可用资源.
是否有任何配置.
谢谢!
我正在使用Cloudera Quickstart VM 5.3.0(在Windows 7上的Virtual Box 4.3中运行),我想学习Spark(在YARN上).
我创办了Cloudera Manager.在侧边栏中我可以看到所有服务,有Spark但是在独立模式下.所以我点击"添加新服务",选择"Spark".然后我必须为这个服务选择一组依赖项,我没有选择我必须选择HDFS/YARN/zookeeper.下一步我必须选择历史服务器和网关,我在本地模式下运行VM,所以我只能选择localhost.
我单击"继续",发生此错误(+ 69个跟踪):
发生服务器错误.将以下信息发送给Cloudera.
路径:http:// localhost:7180/cmf/clusters/1/add-service/reviewConfig
版本:Cloudera Express 5.3.0(#155由jenkins在20141216-1458上建立git:e9aae1d1d1ce2982d812b22bd1c29ff7af355226)
org.springframework.web.bind.MissingServletRequestParameterException:org.springframework.web.servlet.mvc.annotation.AnnotationMethodHandlerAdapter中的AnnotationMethodHandlerAdapter.java第738行不存在必需的长参数'serviceId'$ ServletHandlerMethodInvoker raiseMissingParameterException()
我不知道是否需要互联网连接,但我确切地说我无法通过VM连接到互联网.(编辑:即使有互联网连接我也得到同样的错误)
我不知道如何添加此服务,我尝试使用或不使用网关,许多网络选项,但它从来没有工作过.我检查了已知的问题; 没有...
有人知道如何解决这个错误或我如何解决?谢谢你的帮助.
cloudera cloudera-manager apache-spark cloudera-quickstart-vm
我碰巧在 CDH 工作了很长时间(大约 1 年),现在打算重新开始。现在我们有 CDH、HDP 和 Hortonwork 被 Cloudera 收购。
cloudera hortonworks-data-platform cloudera-cdh cloudera-quickstart-vm hortonworks-sandbox
系统:Cloudera Quickstart VM 5.4上的Spark 1.3.0(Anaconda Python dist.)
这是一个Spark DataFrame:
from pyspark.sql import SQLContext
from pyspark.sql.types import *
sqlContext = SQLContext(sc)
data = sc.parallelize([('Foo',41,'US',3),
('Foo',39,'UK',1),
('Bar',57,'CA',2),
('Bar',72,'CA',3),
('Baz',22,'US',6),
(None,75,None,7)])
schema = StructType([StructField('Name', StringType(), True),
StructField('Age', IntegerType(), True),
StructField('Country', StringType(), True),
StructField('Score', IntegerType(), True)])
df = sqlContext.createDataFrame(data,schema)
Run Code Online (Sandbox Code Playgroud)
data.show()
Name Age Country Score
Foo 41 US 3
Foo 39 UK 1
Bar 57 CA 2
Bar 72 CA 3
Baz 22 US 6
null 75 null 7
Run Code Online (Sandbox Code Playgroud)
然而,这些都不起作用!
df.dropna()
df.na.drop()
Run Code Online (Sandbox Code Playgroud)
我收到这条消息:
>>> df.show() …Run Code Online (Sandbox Code Playgroud) 我最近下载了Cloudera CDH 5.3,现在我需要访问HUE Web UI门户.当我提供属于Cloudera admin/admin的默认用户名和密码时,它无效.我现在无法登录HUE门户.有人可以帮忙吗?
我在Oozie中遇到过几个SparkAction作业的例子,其中大多数都是用Java编写的.我编辑了一下并在Cloudera CDH Quickstart 5.4.0(使用Spark版本1.4.0)中运行该示例.
workflow.xml
<workflow-app xmlns='uri:oozie:workflow:0.5' name='SparkFileCopy'>
<start to='spark-node' />
<action name='spark-node'>
<spark xmlns="uri:oozie:spark-action:0.1">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<prepare>
<delete path="${nameNode}/user/${wf:user()}/${examplesRoot}/output-data/spark"/>
</prepare>
<master>${master}</master>
<mode>${mode}</mode>
<name>Spark-FileCopy</name>
<class>org.apache.oozie.example.SparkFileCopy</class>
<jar>${nameNode}/user/${wf:user()}/${examplesRoot}/apps/spark/lib/oozie-examples.jar</jar>
<arg>${nameNode}/user/${wf:user()}/${examplesRoot}/input-data/text/data.txt</arg>
<arg>${nameNode}/user/${wf:user()}/${examplesRoot}/output-data/spark</arg>
</spark>
<ok to="end" />
<error to="fail" />
</action>
<kill name="fail">
<message>Workflow failed, error
message[${wf:errorMessage(wf:lastErrorNode())}]
</message>
</kill>
<end name='end' />
</workflow-app>
Run Code Online (Sandbox Code Playgroud)
job.properties
nameNode=hdfs://quickstart.cloudera:8020
jobTracker=quickstart.cloudera:8032
master=local[2]
mode=client
examplesRoot=examples
oozie.use.system.libpath=true
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/apps/spark
Run Code Online (Sandbox Code Playgroud)
Oozie工作流示例(在Java中)能够完成并完成其任务.
不过我spark-submit用Python/PySpark 编写了一份工作.我试着去除<class>罐子
<jar>my_pyspark_job.py</jar>
Run Code Online (Sandbox Code Playgroud)
但是当我尝试运行Oozie-Spark作业时,我在日志中出错:
Launcher ERROR, reason: Main class [org.apache.oozie.action.hadoop.SparkMain], exit code [2]
Run Code Online (Sandbox Code Playgroud)
我想知道如果我使用Python/PySpark,我应该放置什么<class>和<jar>标签?
使用Cloudera QuickStart VM在Eclipse(Kepler)中运行时,在一个简单的Hadoop程序上看到JsonMappingException
Exception in thread "main" java.lang.NoClassDefFoundError: org/codehaus/jackson/map/JsonMappingException
at org.apache.hadoop.mapreduce.Job$1.run(Job.java:595)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
at org.apache.hadoop.mapreduce.Job.connect(Job.java:593)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:581)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:612)
at MaxTemperature.main(MaxTemperature.java:28)
Caused by: java.lang.ClassNotFoundException: org.codehaus.jackson.map.JsonMappingException
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)
at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
... 8 more
Run Code Online (Sandbox Code Playgroud)
正如许多人所建议的那样,尝试从快速启动VM中添加杰克逊罐子,但没有成功。
eclipse hadoop noclassdeffounderror jackson cloudera-quickstart-vm
我正在使用Windows 10计算机,在Windows上使用Docker,并提取了cloudera-quickstart:最新映像。在尝试运行它时,出现以下错误。有人可以建议。
docker:来自守护程序的错误响应:oci运行时错误:container_linux.go:262:启动容器进程导致“ exec:\” / usr / bin / docker-quickstart \”:统计信息/ usr / bin / docker-quickstart:无此类文件或目录”
我的运行命令:
docker运行--hostname = quickstart.cloudera --privileged = true -t -i cloudera / quickstart / usr / bin / docker-quickstart
apache-spark ×4
cloudera ×4
hadoop ×4
docker ×3
pyspark ×3
cloudera-cdh ×2
hive ×2
centos ×1
eclipse ×1
hue ×1
jackson ×1
java ×1
oozie ×1
sqoop ×1
virtualbox ×1