Hadoop通过提供可插拔的序列化机制SerializationFactory.
默认情况下,Hadoop使用WritableSerialization该类来处理实现Writable接口的类的反序列化,但是您可以Serialization通过设置Hadoop配置属性io.serializations(实现Serialization接口的类的CSV列表)来注册实现接口的自定义序列化程序.
Avro Serialization在AvroSerialization类中有一个接口的实现- 所以这将是你在io.serializations属性中配置的类.
Avro实际上有一大堆辅助类可以帮助你编写Map/Reduce作业以使用Avro作为输入/输出 - 源代码中有一些例子(Git副本)
我现在似乎找不到任何关于Avro和Map Reduce的好文档,但我确信还有一些其他很好的例子.