标签: hadoop2

为hadoop设置的类路径在哪里

hadoop集的类路径在哪里?当我运行下面的命令时,它给了我类路径.类路径设置在哪里?

  bin/hadoop classpath
Run Code Online (Sandbox Code Playgroud)

我正在使用hadoop 2.6.0

hadoop mapreduce hadoop2

7
推荐指数
2
解决办法
3万
查看次数

增加Hadoop 2中的Hive映射器数量

我从Hive创建了一个HBase表,我正在尝试对它进行简单的聚合.这是我的Hive查询:

from my_hbase_table 
select col1, count(1) 
group by col1;
Run Code Online (Sandbox Code Playgroud)

地图减少作业只产生2个映射器,我想增加它.使用普通地图缩小作业,我将配置纱线和映射器内存以增加映射器的数量.我在Hive中尝试了以下操作,但它不起作用:

set yarn.nodemanager.resource.cpu-vcores=16;
set yarn.nodemanager.resource.memory-mb=32768;
set mapreduce.map.cpu.vcores=1;
set mapreduce.map.memory.mb=2048;
Run Code Online (Sandbox Code Playgroud)

注意:

  • 我的测试集群只有2个节点
  • HBase表有超过5M的记录
  • Hive日志显示HiveInputFormat和一些splits = 2

java hadoop hbase hive hadoop2

7
推荐指数
2
解决办法
3万
查看次数

找到杀死Hadoop作业的用户名

有没有办法找到杀死这份Hadoop工作的用户的名字?
我在群集Hadoop 2.6.0节点上没有root访问权限,因此我只能使用Hadoop命令行工具并仔细检查日志.
我检查了日志并尝试使用mapred job -history [jhist file]但找不到用户名.

hadoop hadoop-yarn hadoop2

7
推荐指数
1
解决办法
1550
查看次数

sqoop中的--direct模式是什么?

根据我的理解,sqoop用于将表/数据从数据库导入或导出到HDFS或Hive或HBASE。

而且我们可以直接导入单个表或表列表。内部mapreduce程序(我认为只有map任务)将运行。

我的疑问是什么是直接使用sqoop,什么时候使用直接选择sqoop?

hadoop sqoop hadoop2 sqoop2

7
推荐指数
2
解决办法
1万
查看次数

Apache YARN可以在没有HDFS的情况下使用吗?

我想使用Apache YARN作为集群和资源管理器来运行一个框架,在该框架中,资源将在同一框架的不同任务之间共享.我想使用自己的分布式堆外文件系统.

  1. 是否可以使用除HDFS以外的YARN的任何其他分布式文件系统?

  2. 如果是,需要实施哪些HDFS API?

  3. 运行YARN需要哪些Hadoop组件?

apache hadoop hadoop-yarn hadoop2

7
推荐指数
1
解决办法
2853
查看次数

如何使用oozie检查文件是否存在于HDFS位置?

如何使用 Oozie 检查 HDFS 位置中的文件是否存在?

在我的 HDFS 位置,我test_08_01_2016.csv每天晚上 11 点都会收到这样的文件。

我想在晚上 11.15 之后检查此文件是否存在。我可以使用 Oozie 协调器作业来安排批处理。

但是如何验证文件是否存在于 HDFS 中?

hadoop oozie oozie-coordinator hadoop2 cloudera-cdh

6
推荐指数
1
解决办法
4832
查看次数

合并hadoop中的小文件

我在HDFS中有一个目录(Final Dir),其中一些文件(例如:10 mb)每分钟加载一次.一段时间后,我想将所有小文件组合成一个大文件(例如:100 mb).但是用户不断将文件推送到Final Dir.这是一个持续的过程.

所以我第一次需要将前10个文件组合成一个大文件(例如:large.txt)并将文件保存到Finaldir.

现在我的问题是我将如何获得除前10个文件之外的下10个文件?

可以请一些帮助我

hadoop hive mapreduce hdfs hadoop2

6
推荐指数
1
解决办法
6687
查看次数

在报告最终状态之前调用“关闭挂钩”的 Spark 问题(已关闭)

我正在尝试在工作的 hadoop 集群上运行 spark。当我使用较小的数据集运行 python 作业时,一切似乎都正常。但是,当我使用更大的数据集时,任务失败并且在 hadoop 资源管理器中我得到了诊断信息:

在报告最终状态之前调用关闭挂钩。

我用来运行作业的命令是:

spark-submit --master yarn --deploy-mode cluster --conf \
spark.yarn.appMasterEnv.SPARK_HOME=/dev/null --conf \
spark.executorEnv.SPARK_HOME=/dev/null  project-spark.py
Run Code Online (Sandbox Code Playgroud)

它只是生成一些数据并在生成的数据上运行 Spark 的 KMeans 算法的测试代码。

任何想法我应该做什么?任何帮助是极大的赞赏...

此外,我在由 4 个工作人员组成的 Hadoop v2.6.0 集群上使用 Spark v2.0.0,并使用 Anaconda2 v4.1.1

____更新

正如@rakesh.rakshit 建议我使用参数运行作业--master yarn-client并监控任务。我发现正如@ShuaiYuan 所建议的那样,我实际上有一个内存密集型部分不是通过导致问题的 Spark 函数完成的。

此外,似乎在 Spark 1.4.0 之外,SPARK_HOME由于此问题已解决,因此不需要设置变量。

shutdown-hook hadoop-yarn apache-spark hadoop2 pyspark

6
推荐指数
0
解决办法
6724
查看次数

-bash: bin/kafka-topics.sh: 没有通过 ambari 安装这样的文件或目录

我是 hadoop 和 apache 环境的新手。现在我正在尝试了解kafka,我已经通过ambari安装了hadoop。我可以看到安装了一些服务。包括动物园管理员。当我单击该服务时,它显示 Zookeeper 服务器以绿点启动。我假设 Zookeeper 安装正确。现在我添加了kafka服务。假设安装了kafka和zookeeper,我尝试根据这个源kafka文档创建一些主题。

我尝试这段代码

bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic test
Run Code Online (Sandbox Code Playgroud)

它返回

-bash: bin/kafka-topics.sh: 没有这样的文件或目录

这让我想知道kafka是否真的是通过ambari安装的?我检查了 ambari 服务,kafka 已添加,并且代理正在以带有绿点的启动状态运行。

同样的事情也发生在动物园管理员身上

bin/zookeeper-server-start.sh config/zookeeper.properties
Run Code Online (Sandbox Code Playgroud)

它返回

-bash: bin/zookeeper-server-start.sh: 没有这样的文件或目录

问题

我如何知道是否通过 ambari 正确安装了任何服务?我只是用 kafka 尝试一下,但是如果我必须添加任何其他源怎么办?通过ambari添加服务后还需要进行其他配置吗?

谢谢。

apache-kafka hadoop2 ambari apache-zookeeper

6
推荐指数
2
解决办法
1万
查看次数

如何解决“SecurityManager:身份验证已禁用;spark 分发集群中出现异常”?

我在Linux(Ubuntu)环境中创建了一个Spark分发集群来运行Spark提交作业。我有3台机器(m1、s1和s2;m1是主机,s1和s2是从机)。

在主Spark和从Spark目录中../spark/conf/ spark-defaults.confspark-env.sh. 我已经配置了一切。

Spark-env.sh

export SPARK_MASTER_HOST=198.77.8.7
export SPARK_WORKER_HOST=198.77.8.12
export SPARK_WORKER_HOST=198.77.8.18
export SPARK_LOCAL_IP=198.77.8.7
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export SPARK_WORKER_CORES=8
Run Code Online (Sandbox Code Playgroud)

火花默认值.conf

spark.master yarn
spark.executor.memory 1g
spark.driver.memory 1g
spark.yarn.am.memory 1g
Run Code Online (Sandbox Code Playgroud)

工作命令是:

bin/spark-submit --master local[*] --deploy-mode client --class com.xyApp --executor-内存 15G --executor-cores 2 --driver-内存 15G /home/user/workspace/test 。罐

我正在获取输出文件,但是当我在集群模式下运行时,它给了我一个异常。命令是:

bin/spark-submit --master Spark://198.47.12.8:7077 --deploy-mode cluster --class com.xyApp --executor-内存 15G --executor-cores 2 --driver-内存 15G /home/用户/工作空间/test.jar

例外:

21/01/08 16:51:51 INFO SecurityManager: Changing modify acls groups to: 
21/01/08 16:51:51 INFO SecurityManager: SecurityManager: authentication disabled; ui acls …
Run Code Online (Sandbox Code Playgroud)

java apache-spark hadoop2

6
推荐指数
0
解决办法
5221
查看次数