如何在map / reduce中执行ETL

san*_*uru 3 hadoop mapreduce

如果必须将一个文本文件逐行转换为另一个文本文件，我们应该如何设计mapper / reducer。

我写了一个简单的map / reduce程序，做了一些小的改动，但要求更加详细，以下是详细信息：

该文件的结构通常是这样的-第一行包含以逗号分隔的列名列表。第二行和其余行针对列指定值
在某些行中，尾随的列值可能会丢失，例如：如果有15列，则可能仅为前10列指定值。
我大约有5个输入文件，我需要将它们转换并聚合为一个文件。转换特定于5个输入文件中的每一个。
如何将上下文信息（如文件名）传递给映射程序/缩减程序？
转换是特定于列的，因此我如何记住第一行中提到的列，然后关联和转换行中的值？

将文件拆分为行，并行转换（映射）每一行，将结果行合并（减少）为一个文件？

归档时间：	15 年前
查看次数：	2844 次
最近记录：	14 年，6 月前

纱线不尊重yarn.nodemanager.resource.cpu-vcores 15

在PIG加入vs COGROUP 12

可扩展的分布式文件系统,用于blobs,如图像和其他文档 12

Hadoop - 适用于不同大小(200-500mb)的不可分割文件的块大小 10

来自hbase/filesystem的hadoop namenode连接中EOF异常的含义是什么？ 8

将日志文件从边缘节点摄取到 Hadoop 5

Hive ql如何使用多个COUNT函数进行查询,并使用它们进行除法 4

在 hiveql 中将列转换为行 (UNPIVOT) 4

如何在Hive Web界面中编写查询 1

Num Off开关容器在Yarn资源管理器UI中是什么意思？ 0

jQuery是否存在"存在"功能？ 2669

如何在Python中延迟时间？ 2638

PHP:从数组中删除元素 2362

JavaScript对象的长度 2224

如何"git克隆"包括子模块？ 1864

如何将NodeJS和NPM更新到下一个版本？ 1573

每个'循环的Java'如何工作？ 1446

在Python中将整数转换为字符串？ 1282

用于更新和删除的HTTP状态代码？ 1264

如何在psql中切换数据库？ 1029