为hadoop设置的类路径在哪里

hadoop集的类路径在哪里？当我运行下面的命令时,它给了我类路径.类路径设置在哪里？

  bin/hadoop classpath

Run Code Online (Sandbox Code Playgroud)

我正在使用hadoop 2.6.0

hadoop mapreduce hadoop2

Bou*_*rne

lucky-day

7
推荐指数

2
解决办法

3万
查看次数

增加Hadoop 2中的Hive映射器数量

我从Hive创建了一个HBase表,我正在尝试对它进行简单的聚合.这是我的Hive查询:

from my_hbase_table 
select col1, count(1) 
group by col1;

Run Code Online (Sandbox Code Playgroud)

地图减少作业只产生2个映射器,我想增加它.使用普通地图缩小作业,我将配置纱线和映射器内存以增加映射器的数量.我在Hive中尝试了以下操作,但它不起作用:

set yarn.nodemanager.resource.cpu-vcores=16;
set yarn.nodemanager.resource.memory-mb=32768;
set mapreduce.map.cpu.vcores=1;
set mapreduce.map.memory.mb=2048;

Run Code Online (Sandbox Code Playgroud)

注意:

我的测试集群只有2个节点
HBase表有超过5M的记录
Hive日志显示HiveInputFormat和一些splits = 2

java hadoop hbase hive hadoop2

Mar*_*ace

lucky-day

7
推荐指数

2
解决办法

3万
查看次数

找到杀死Hadoop作业的用户名

有没有办法找到杀死这份Hadoop工作的用户的名字？
我在群集Hadoop 2.6.0节点上没有root访问权限,因此我只能使用Hadoop命令行工具并仔细检查日志.
我检查了日志并尝试使用mapred job -history [jhist file]但找不到用户名.

hadoop hadoop-yarn hadoop2

Bru*_*ald

2015 12-15

7
推荐指数

1
解决办法

1550
查看次数

sqoop中的--direct模式是什么？

根据我的理解，sqoop用于将表/数据从数据库导入或导出到HDFS或Hive或HBASE。

而且我们可以直接导入单个表或表列表。内部mapreduce程序（我认为只有map任务）将运行。

我的疑问是什么是直接使用sqoop，什么时候使用直接选择sqoop？

hadoop sqoop hadoop2 sqoop2

Raj*_*Raj

2016 08-26

7
推荐指数

2
解决办法

1万
查看次数

Apache YARN可以在没有HDFS的情况下使用吗？

我想使用Apache YARN作为集群和资源管理器来运行一个框架,在该框架中,资源将在同一框架的不同任务之间共享.我想使用自己的分布式堆外文件系统.

是否可以使用除HDFS以外的YARN的任何其他分布式文件系统？
如果是,需要实施哪些HDFS API？
运行YARN需要哪些Hadoop组件？

apache hadoop hadoop-yarn hadoop2

Ama*_*iye

lucky-day

7
推荐指数

1
解决办法

2853
查看次数

如何使用oozie检查文件是否存在于HDFS位置？

如何使用 Oozie 检查 HDFS 位置中的文件是否存在？

在我的 HDFS 位置，我test_08_01_2016.csv每天晚上 11 点都会收到这样的文件。

我想在晚上 11.15 之后检查此文件是否存在。我可以使用 Oozie 协调器作业来安排批处理。

但是如何验证文件是否存在于 HDFS 中？

hadoop oozie oozie-coordinator hadoop2 cloudera-cdh

Sai*_*Sai

2018 02-15

6
推荐指数

1
解决办法

4832
查看次数

合并hadoop中的小文件

我在HDFS中有一个目录(Final Dir),其中一些文件(例如:10 mb)每分钟加载一次.一段时间后,我想将所有小文件组合成一个大文件(例如:100 mb).但是用户不断将文件推送到Final Dir.这是一个持续的过程.

所以我第一次需要将前10个文件组合成一个大文件(例如:large.txt)并将文件保存到Finaldir.

现在我的问题是我将如何获得除前10个文件之外的下10个文件？

可以请一些帮助我

hadoop hive mapreduce hdfs hadoop2

Raj*_*Raj

lucky-day

6
推荐指数

1
解决办法

6687
查看次数

在报告最终状态之前调用“关闭挂钩”的 Spark 问题（已关闭）

我正在尝试在工作的 hadoop 集群上运行 spark。当我使用较小的数据集运行 python 作业时，一切似乎都正常。但是，当我使用更大的数据集时，任务失败并且在 hadoop 资源管理器中我得到了诊断信息：

在报告最终状态之前调用关闭挂钩。

我用来运行作业的命令是：

spark-submit --master yarn --deploy-mode cluster --conf \
spark.yarn.appMasterEnv.SPARK_HOME=/dev/null --conf \
spark.executorEnv.SPARK_HOME=/dev/null  project-spark.py

Run Code Online (Sandbox Code Playgroud)

它只是生成一些数据并在生成的数据上运行 Spark 的 KMeans 算法的测试代码。

任何想法我应该做什么？任何帮助是极大的赞赏...

此外，我在由 4 个工作人员组成的 Hadoop v2.6.0 集群上使用 Spark v2.0.0，并使用 Anaconda2 v4.1.1

____更新

正如@rakesh.rakshit 建议我使用参数运行作业--master yarn-client并监控任务。我发现正如@ShuaiYuan 所建议的那样，我实际上有一个内存密集型部分不是通过导致问题的 Spark 函数完成的。

此外，似乎在 Spark 1.4.0 之外，SPARK_HOME由于此问题已解决，因此不需要设置变量。

shutdown-hook hadoop-yarn apache-spark hadoop2 pyspark

Far*_*ini

2016 09-06

6
推荐指数

0
解决办法

6724
查看次数

-bash: bin/kafka-topics.sh: 没有通过 ambari 安装这样的文件或目录

我是 hadoop 和 apache 环境的新手。现在我正在尝试了解kafka，我已经通过ambari安装了hadoop。我可以看到安装了一些服务。包括动物园管理员。当我单击该服务时，它显示 Zookeeper 服务器以绿点启动。我假设 Zookeeper 安装正确。现在我添加了kafka服务。假设安装了kafka和zookeeper，我尝试根据这个源kafka文档创建一些主题。

我尝试这段代码

bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic test

Run Code Online (Sandbox Code Playgroud)

它返回

-bash: bin/kafka-topics.sh: 没有这样的文件或目录

这让我想知道kafka是否真的是通过ambari安装的？我检查了 ambari 服务，kafka 已添加，并且代理正在以带有绿点的启动状态运行。

同样的事情也发生在动物园管理员身上

bin/zookeeper-server-start.sh config/zookeeper.properties

Run Code Online (Sandbox Code Playgroud)

它返回

-bash: bin/zookeeper-server-start.sh: 没有这样的文件或目录

问题

我如何知道是否通过 ambari 正确安装了任何服务？我只是用 kafka 尝试一下，但是如果我必须添加任何其他源怎么办？通过ambari添加服务后还需要进行其他配置吗？

谢谢。

apache-kafka hadoop2 ambari apache-zookeeper

yul*_*sen

2020 06-09

6
推荐指数

2
解决办法

1万
查看次数

如何解决“SecurityManager：身份验证已禁用；spark 分发集群中出现异常”？

我在Linux（Ubuntu）环境中创建了一个Spark分发集群来运行Spark提交作业。我有3台机器（m1、s1和s2；m1是主机，s1和s2是从机）。

在主Spark和从Spark目录中../spark/conf/ spark-defaults.conf，spark-env.sh. 我已经配置了一切。

Spark-env.sh

export SPARK_MASTER_HOST=198.77.8.7
export SPARK_WORKER_HOST=198.77.8.12
export SPARK_WORKER_HOST=198.77.8.18
export SPARK_LOCAL_IP=198.77.8.7
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_WORKER_CORES=8

Run Code Online (Sandbox Code Playgroud)

火花默认值.conf

spark.master yarn
spark.executor.memory 1g
spark.driver.memory 1g
spark.yarn.am.memory 1g

Run Code Online (Sandbox Code Playgroud)

工作命令是：

bin/spark-submit --master local[*] --deploy-mode client --class com.xyApp --executor-内存 15G --executor-cores 2 --driver-内存 15G /home/user/workspace/test 。罐

我正在获取输出文件，但是当我在集群模式下运行时，它给了我一个异常。命令是：

bin/spark-submit --master Spark://198.47.12.8:7077 --deploy-mode cluster --class com.xyApp --executor-内存 15G --executor-cores 2 --driver-内存 15G /home/用户/工作空间/test.jar

例外：

21/01/08 16:51:51 INFO SecurityManager: Changing modify acls groups to: 
21/01/08 16:51:51 INFO SecurityManager: SecurityManager: authentication disabled; ui acls …

Run Code Online (Sandbox Code Playgroud)

java apache-spark hadoop2

Bim*_*lei

2021 01-10

6
推荐指数

0
解决办法

5221
查看次数