我是新来的Hadoop,不知道有多少种类InputFormat是在有Hadoop诸如TextInputFormat?有没有InputFormat我可以用来通过http请求读取文件到远程数据服务器?
谢谢 :)
有许多classes实现InputFormat
CombineFileInputFormat, CombineSequenceFileInputFormat,
CombineTextInputFormat, CompositeInputFormat, DBInputFormat,
FileInputFormat, FixedLengthInputFormat, KeyValueTextInputFormat,
MultiFileInputFormat, NLineInputFormat, Parser.Node,
SequenceFileAsBinaryInputFormat, SequenceFileAsTextInputFormat,
SequenceFileInputFilter, SequenceFileInputFormat, TextInputFormat
Run Code Online (Sandbox Code Playgroud)
看看这篇关于何时使用哪种类型的文章Inputformat.
其中,最常用的formats是:
FileInputFormat :所有基于文件的InputFormats的基类KeyValueTextInputFormat:纯文本文件的InputFormat.文件分为几行.换行或回车用于发出行尾信号.每行由分隔符字节分为键和值部分.如果不存在这样的字节,则键将是整行,值将为空.TextInputFormat:纯文本文件的InputFormat.文件分为几行.换行或回车用于发出行尾信号.键是文件中的位置,值是文本行.NLineInputFormat:NLineInputFormat将N行输入拆分为一个拆分.在许多"愉快"并行应用程序中,每个进程/映射器处理相同的输入文件,但计算由不同的参数控制.SequenceFileInputFormat :SequenceFiles的InputFormat.关于第二个查询,servers首先从远程获取文件,并InputFileFormat根据文件中的内容使用适当的.Hadoop最适合数据本地化.
您的第一个问题 - Hadoop 中有多少种类型的 InputFormat(例如 TextInputFormat)?
TextInputFormat- 每行将被视为值KeyValueTextInputFormat- 分隔符之前的第一个值是键,其余的是值FixedLengthInputFormat- 每个固定长度值都被视为值NLineInputFormat- N 行被视为一个值/记录SequenceFileInputFormat- 对于二进制还有DBInputFormat从数据库中读取
你的第二个问题 - 没有输入格式可以通过 http 请求读取文件。