我有两个文件,格式如下:
field1, field2, field3 field4, field1, field5
不同的字段编号表示不同的含义.
我想使用基于相互字段的Hadoop Streaming加入这两个文件(field1在上面的示例中),因此输出将是field1, field2, field3, field4, field5(其他顺序可以正常,因为它们具有所有字段).
field1
field1, field2, field3, field4, field5
streaming hadoop join
hadoop ×1
join ×1
streaming ×1