hadoop集的类路径在哪里?当我运行下面的命令时,它给了我类路径.类路径设置在哪里?
bin/hadoop classpath
Run Code Online (Sandbox Code Playgroud)
我正在使用hadoop 2.6.0
我从Hive创建了一个HBase表,我正在尝试对它进行简单的聚合.这是我的Hive查询:
from my_hbase_table
select col1, count(1)
group by col1;
Run Code Online (Sandbox Code Playgroud)
地图减少作业只产生2个映射器,我想增加它.使用普通地图缩小作业,我将配置纱线和映射器内存以增加映射器的数量.我在Hive中尝试了以下操作,但它不起作用:
set yarn.nodemanager.resource.cpu-vcores=16;
set yarn.nodemanager.resource.memory-mb=32768;
set mapreduce.map.cpu.vcores=1;
set mapreduce.map.memory.mb=2048;
Run Code Online (Sandbox Code Playgroud)
注意:
有没有办法找到杀死这份Hadoop工作的用户的名字?
我在群集Hadoop 2.6.0节点上没有root访问权限,因此我只能使用Hadoop命令行工具并仔细检查日志.
我检查了日志并尝试使用mapred job -history [jhist file]但找不到用户名.
根据我的理解,sqoop用于将表/数据从数据库导入或导出到HDFS或Hive或HBASE。
而且我们可以直接导入单个表或表列表。内部mapreduce程序(我认为只有map任务)将运行。
我的疑问是什么是直接使用sqoop,什么时候使用直接选择sqoop?
我想使用Apache YARN作为集群和资源管理器来运行一个框架,在该框架中,资源将在同一框架的不同任务之间共享.我想使用自己的分布式堆外文件系统.
是否可以使用除HDFS以外的YARN的任何其他分布式文件系统?
如果是,需要实施哪些HDFS API?
如何使用 Oozie 检查 HDFS 位置中的文件是否存在?
在我的 HDFS 位置,我test_08_01_2016.csv每天晚上 11 点都会收到这样的文件。
我想在晚上 11.15 之后检查此文件是否存在。我可以使用 Oozie 协调器作业来安排批处理。
但是如何验证文件是否存在于 HDFS 中?
我在HDFS中有一个目录(Final Dir),其中一些文件(例如:10 mb)每分钟加载一次.一段时间后,我想将所有小文件组合成一个大文件(例如:100 mb).但是用户不断将文件推送到Final Dir.这是一个持续的过程.
所以我第一次需要将前10个文件组合成一个大文件(例如:large.txt)并将文件保存到Finaldir.
现在我的问题是我将如何获得除前10个文件之外的下10个文件?
可以请一些帮助我
我正在尝试在工作的 hadoop 集群上运行 spark。当我使用较小的数据集运行 python 作业时,一切似乎都正常。但是,当我使用更大的数据集时,任务失败并且在 hadoop 资源管理器中我得到了诊断信息:
在报告最终状态之前调用关闭挂钩。
我用来运行作业的命令是:
spark-submit --master yarn --deploy-mode cluster --conf \
spark.yarn.appMasterEnv.SPARK_HOME=/dev/null --conf \
spark.executorEnv.SPARK_HOME=/dev/null project-spark.py
Run Code Online (Sandbox Code Playgroud)
它只是生成一些数据并在生成的数据上运行 Spark 的 KMeans 算法的测试代码。
任何想法我应该做什么?任何帮助是极大的赞赏...
此外,我在由 4 个工作人员组成的 Hadoop v2.6.0 集群上使用 Spark v2.0.0,并使用 Anaconda2 v4.1.1
____更新
正如@rakesh.rakshit 建议我使用参数运行作业--master yarn-client并监控任务。我发现正如@ShuaiYuan 所建议的那样,我实际上有一个内存密集型部分不是通过导致问题的 Spark 函数完成的。
此外,似乎在 Spark 1.4.0 之外,SPARK_HOME由于此问题已解决,因此不需要设置变量。
我是 hadoop 和 apache 环境的新手。现在我正在尝试了解kafka,我已经通过ambari安装了hadoop。我可以看到安装了一些服务。包括动物园管理员。当我单击该服务时,它显示 Zookeeper 服务器以绿点启动。我假设 Zookeeper 安装正确。现在我添加了kafka服务。假设安装了kafka和zookeeper,我尝试根据这个源kafka文档创建一些主题。
bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic test
Run Code Online (Sandbox Code Playgroud)
-bash: bin/kafka-topics.sh: 没有这样的文件或目录
这让我想知道kafka是否真的是通过ambari安装的?我检查了 ambari 服务,kafka 已添加,并且代理正在以带有绿点的启动状态运行。
bin/zookeeper-server-start.sh config/zookeeper.properties
Run Code Online (Sandbox Code Playgroud)
-bash: bin/zookeeper-server-start.sh: 没有这样的文件或目录
我如何知道是否通过 ambari 正确安装了任何服务?我只是用 kafka 尝试一下,但是如果我必须添加任何其他源怎么办?通过ambari添加服务后还需要进行其他配置吗?
谢谢。
我在Linux(Ubuntu)环境中创建了一个Spark分发集群来运行Spark提交作业。我有3台机器(m1、s1和s2;m1是主机,s1和s2是从机)。
在主Spark和从Spark目录中../spark/conf/ spark-defaults.conf,spark-env.sh. 我已经配置了一切。
Spark-env.sh
export SPARK_MASTER_HOST=198.77.8.7
export SPARK_WORKER_HOST=198.77.8.12
export SPARK_WORKER_HOST=198.77.8.18
export SPARK_LOCAL_IP=198.77.8.7
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_WORKER_CORES=8
Run Code Online (Sandbox Code Playgroud)
火花默认值.conf
spark.master yarn
spark.executor.memory 1g
spark.driver.memory 1g
spark.yarn.am.memory 1g
Run Code Online (Sandbox Code Playgroud)
工作命令是:
bin/spark-submit --master local[*] --deploy-mode client --class com.xyApp --executor-内存 15G --executor-cores 2 --driver-内存 15G /home/user/workspace/test 。罐
我正在获取输出文件,但是当我在集群模式下运行时,它给了我一个异常。命令是:
bin/spark-submit --master Spark://198.47.12.8:7077 --deploy-mode cluster --class com.xyApp --executor-内存 15G --executor-cores 2 --driver-内存 15G /home/用户/工作空间/test.jar
例外:
21/01/08 16:51:51 INFO SecurityManager: Changing modify acls groups to:
21/01/08 16:51:51 INFO SecurityManager: SecurityManager: authentication disabled; ui acls …Run Code Online (Sandbox Code Playgroud) hadoop2 ×10
hadoop ×7
hadoop-yarn ×3
apache-spark ×2
hive ×2
java ×2
mapreduce ×2
ambari ×1
apache ×1
apache-kafka ×1
cloudera-cdh ×1
hbase ×1
hdfs ×1
oozie ×1
pyspark ×1
sqoop ×1
sqoop2 ×1