标签: hadoop

如何从命令行获取 Hadoop 作业的成功/失败状态?

我正在使用带有 MRv1 的 CDH4。据我所知,没有用于检查已完成作业的“状态”的命令行工具。当我转到 Web 控制台作业详细信息页面时,我可以看到“状态:失败”或“状态:成功”。如果我运行mapred job -list allmapred job -status job_201309231203_0011,既不指示“失败”或“成功”。

我错过了其他一些命令吗?

command-line hadoop cloudera

0
推荐指数
1
解决办法
2万
查看次数

Hadoop Streaming Python 多输入文件单映射器

我有一个映射器。

for line in sys.stdin:
    #if line is from file1
    #process it based on some_arbitrary_logic
    #emit k,v

    #if line is from file2
    #process it based on another_arbitrary_logic
    #emit k, v
Run Code Online (Sandbox Code Playgroud)

我需要通过 hadoop 流 API-input file1和另一个-input file2.

我如何实现这一目标?我怎么知道STDINhadoop流给我的哪一行属于哪个文件?

更新

File1

Fruit, Vendor, Cost

Oranges, FreshOrangesCompany, 50
Apples, FreshAppleCompany, 100

File2

Vendor, Location, NumberOfOffices

FreshAppleCompany, NewZealand, 45
FreshOrangeCompany, FijiIslands, 100
Run Code Online (Sandbox Code Playgroud)

我需要做的是打印出他们卖橙子的办公室数量。

Oranges 100.

所以这两个文件都需要到INPUT映射器。

python hadoop mapreduce cloudera hadoop-streaming

0
推荐指数
1
解决办法
3847
查看次数

将 BufferedImage 或 ImageIO 转换为 ByteBuffer

我通过 BufferedImage 读取图像获取其 RGB 值,现在为了将图像写回,而不是使用 ImageIO,我必须在 HDFS(Hadoop 分布式文件系统)中写入图像。现在我只有一种选择,那就是使用 FSDataOutputStream 进行写入。那么是否可以将缓冲图像中的 RGB 值转换为 Java 中的 ByteBuffer 类?请帮助

java hadoop mapreduce

0
推荐指数
1
解决办法
4139
查看次数

Hadoop:JobConf 类中的方法 setMapperClass 不能应用于给定类型

我对在 Java 中使用 Hadoop 框架很陌生。我正在尝试为JobConf只有一个映射器的特定 map reduce 作业设置 。reducer 没有真正的中间值。我的映射器类在这里:

public static class GetArticlesMapper extends Mapper<LongWritable, WikipediaPage, Text, Text> 
{
    public static Set<String> peopleArticlesTitles = new HashSet<String>();

    @Override
    protected void setup(Mapper<LongWritable, WikipediaPage, Text, Text>.Context context)
            throws IOException, InterruptedException {
        // TODO: You should implement people articles load from
        // DistributedCache here
        super.setup(context);
    }

    @Override
    public void map(LongWritable offset, WikipediaPage inputPage, Context context)
            throws IOException, InterruptedException {
        // TODO: You should implement getting article mapper here
    }
}
Run Code Online (Sandbox Code Playgroud)

但是,当我编译 …

java hadoop

0
推荐指数
1
解决办法
2222
查看次数

创建分区视图时出现 Hive 错误

我有一个“日志”表,它目前按年、月和日进行分区。我想在“日志”表的顶部创建一个分区视图,但遇到了这个错误:

hive> CREATE VIEW log_view PARTITIONED ON (pagename,year,month,day) AS SELECT pagename, year,month,day,uid,properties FROM log; 

FAILED: SemanticException [Error 10093]: Rightmost columns in view output do not match PARTITIONED ON clause
Run Code Online (Sandbox Code Playgroud)

创建分区视图的正确方法是什么?

apache hadoop hive hdfs hiveql

0
推荐指数
1
解决办法
3769
查看次数

Hive 数据类型:双精度和小数位数

我正在使用 CDH 5.3.0 和 Hive 0.12。我有一个 Hive 表,其中的列定义为双精度。

我正在将数据从 HDFS 序列文件加载到这些双列,小数点后精度为 2。例如,在我的 HDFS 序列文件中,我的数据类似于 - 100.23 或 345.00。我需要选择 double 因为我的数据值可以是一个很大的值,比如“3457894545.00”

我的要求是在查询 Hive 表时在小数点后显示两个刻度精度。因此,对于上面提到的示例数据,如果我查询此列,则需要将值视为“100.23”或“345.00”。

但是对于 Hive 0.12,我只能得到小数点后的单精度,即值被截断为“100.2”或“345.0”。

我尝试使用“decimal”数据类型给出的语法为“decimal(3,2)”,但在这种情况下,我的值​​完全四舍五入,即“100”或“345”。

我一直在寻找是否有任何选项可以将自定义精度定义为 double 数据类型,并发现可以从 hive 0.13 on wards 给出自定义精度。

Is Hive 0.12 double 数据类型仅显示小数点后的单精度。我是否需要应用任何自定义修复。请建议。

提前致谢。

double hadoop hive double-precision

0
推荐指数
1
解决办法
1万
查看次数

Spark 中的 FileNotFound 错误

我在集群上运行一个 spark 简单程序:

val logFile = "/home/hduser/README.md" // Should be some file on your system
val conf = new SparkConf().setAppName("Simple Application")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()

println()
println()
println()
println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
println()
println()
println() 
println()
println()
Run Code Online (Sandbox Code Playgroud)

我收到以下错误

 15/10/27 19:44:01 INFO TaskSetManager: Lost task 0.3 in stage 0.0 (TID 6) on      
 executor 192.168.0.19: java.io.FileNotFoundException (File   
 file:/home/hduser/README.md does not …
Run Code Online (Sandbox Code Playgroud)

hadoop scala hdfs apache-spark

0
推荐指数
1
解决办法
3662
查看次数

Amazon EMR 上的 Hadoop Webhdfs 删除选项失败

我正在尝试查看删除选项是否适用于 webhdfs :

http://ec2-ab-cd-ef-hi.compute-1.amazonaws.com:14000/webhdfs/v1/user/barak/barakFile.csv?op=DELETE&user.name=hadoop
Run Code Online (Sandbox Code Playgroud)

但我收到一个错误:

{"RemoteException":{"message":"Invalid HTTP GET operation [DELETE]",
"exception":"IOException","javaClassName":"java.io.IOException"}}
Run Code Online (Sandbox Code Playgroud)

此文件拥有所有权限 (777)。

[hadoop@ip-172-99-9-99 ~]$ hadoop fs -ls hdfs:///user/someUser
Found 2 items
-rwxrwxrwx 1 hadoop hadoop 344 2015-12-10 08:33 hdfs:///user/someUser/someUser.csv
Run Code Online (Sandbox Code Playgroud)

我还应该检查什么以允许通过 Amazon EMR WEBHDFS 删除选项

hadoop amazon-web-services emr webhdfs

0
推荐指数
1
解决办法
533
查看次数

引发选择并添加具有别名的列

我想选择几列,添加几列或除以某些列,并用空格填充它们,并以新名称存储它们作为别名。例如,SQL中的内容应类似于:

select "   " as col1, b as b1, c+d as e from table 
Run Code Online (Sandbox Code Playgroud)

如何在Spark中实现这一目标?

hadoop scala bigdata apache-spark

0
推荐指数
2
解决办法
6298
查看次数

Num Off开关容器在Yarn资源管理器UI中是什么意思?

我有一个ETL工作,占用大量CPU和内存,并且运行了很长时间。我在调试时观察到的第一件事如下(来自资源管理器GUI上的作业)

  • Num Node本地容器(满意)= 6
  • Num Rack本地容器(满意)= 00
  • Num Off开关容器(满意)= 11367

我们只有两个机架。我需要回答以下三个问题的帮助

  1. Num Off开关容器是什么意思?
  2. 如何识别这些“关闭开关”容器以及它们运行在哪个节点上?
  3. 关闭开关容器是否会导致作业处理时间变慢?

hadoop mapreduce hadoop-yarn hortonworks-data-platform

0
推荐指数
1
解决办法
471
查看次数