Hadoop中有多少种类型的InputFormat?

Tra*_*ams 7 hadoop

我是新来的Hadoop,不知道有多少种类InputFormat是在有Hadoop诸如TextInputFormat?有没有InputFormat我可以用来通过http请求读取文件到远程数据服务器?

谢谢 :)

Rav*_*abu 6

有许多classes实现InputFormat

CombineFileInputFormat, CombineSequenceFileInputFormat, 
CombineTextInputFormat, CompositeInputFormat, DBInputFormat,
FileInputFormat, FixedLengthInputFormat, KeyValueTextInputFormat, 
MultiFileInputFormat, NLineInputFormat, Parser.Node, 
SequenceFileAsBinaryInputFormat, SequenceFileAsTextInputFormat, 
SequenceFileInputFilter, SequenceFileInputFormat, TextInputFormat
Run Code Online (Sandbox Code Playgroud)

看看这篇关于何时使用哪种类型的文章Inputformat.

其中,最常用的formats是:

  • FileInputFormat :所有基于文件的InputFormats的基类
  • KeyValueTextInputFormat:纯文本文件的InputFormat.文件分为几行.换行或回车用于发出行尾信号.每行由分隔符字节分为键和值部分.如果不存在这样的字节,则键将是整行,值将为空.
  • TextInputFormat:纯文本文件的InputFormat.文件分为几行.换行或回车用于发出行尾信号.键是文件中的位置,值是文本行.
  • NLineInputFormat:NLineInputFormat将N行输入拆分为一个拆分.在许多"愉快"并行应用程序中,每个进程/映射器处理相同的输入文件,但计算由不同的参数控制.
  • SequenceFileInputFormat :SequenceFiles的InputFormat.

关于第二个查询,servers首先从远程获取文件,并InputFileFormat根据文件中的内容使用适当的.Hadoop最适合数据本地化.


Dur*_*aju 4

您的第一个问题 - Hadoop 中有多少种类型的 InputFormat(例如 TextInputFormat)?

  1. TextInputFormat- 每行将被视为值
  2. KeyValueTextInputFormat- 分隔符之前的第一个值是键,其余的是值
  3. FixedLengthInputFormat- 每个固定长度值都被视为值
  4. NLineInputFormat- N 行被视为一个值/记录
  5. SequenceFileInputFormat- 对于二进制

还有DBInputFormat从数据库中读取

你的第二个问题 - 没有输入格式可以通过 http 请求读取文件。