如何正确使用Flume在HDFS中插入JSON

Question

如何正确使用Flume在HDFS中插入JSON

我使用HTTPSourcein Flume来接收格式的POST事件,json如下所示:

{"username":"xyz","password":"123"}

Run Code Online (Sandbox Code Playgroud)

我的问题是:我是否必须修改事件的来源(我的意思是发送JSON到Flume 的那个)所以JSON具有以下格式:

[{
  "headers" : {
             "timestamp" : "434324343",
             "host" : "random_host.example.com"
             },
  "body" : "{"username":"xyz","password":"123"}"
}]

Run Code Online (Sandbox Code Playgroud)

这是最好的方法吗？或者我可以在其他地方修改它？

我的conf文件flume agent是:

## Componentes
SomeAgent.sources = SomeHTTP
SomeAgent.channels = MemChannel
SomeAgent.sinks = SomeHDFS

## Fuente e Interceptores
SomeAgent.sources.SomeHTTP.type = http
SomeAgent.sources.SomeHTTP.port = 5140
SomeAgent.sources.SomeHTTP.handler = org.apache.flume.source.http.JSONHandler
SomeAgent.sources.SomeHTTP.channels = MemChannel
SomeAgent.sources.SomeHTTP.interceptors = i1 i2

## Interceptores
SomeAgent.sources.SomeHTTP.interceptors.i1.type = timestamp
SomeAgent.sources.SomeHTTP.interceptors.i2.type = host
SomeAgent.sources.SomeHTTP.interceptors.i2.hostHeader = hostname

## Canal
SomeAgent.channels.MemChannel.type = memory
SomeAgent.channels.MemChannel.capacity = 10000
SomeAgent.channels.MemChannel.transactionCapacity = 1000

## Sumidero
SomeAgent.sinks.SomeHDFS.type = hdfs
SomeAgent.sinks.SomeHDFS.channel = MemChannel
SomeAgent.sinks.SomeHDFS.hdfs.path = /raw/logs/%Y-%m-%d
SomeAgent.sinks.SomeHDFS.hdfs.fileType = DataStream
SomeAgent.sinks.SomeHDFS.hdfs.filePrefix = SomeLogs-
SomeAgent.sinks.SomeHDFS.hdfs.writeFormat = Text
SomeAgent.sinks.SomeHDFS.hdfs.batchSize = 100
SomeAgent.sinks.SomeHDFS.hdfs.rollSize = 0
SomeAgent.sinks.SomeHDFS.hdfs.rollCount = 10000
SomeAgent.sinks.SomeHDFS.hdfs.rollInterval = 600
SomeAgent.sinks.SomeHDFS.hdfs.useLocalTimeStamp = true

Run Code Online (Sandbox Code Playgroud)

运行cat的hadoop fs

$ hadoop fs -ls -R /raw/logs/somes
drwxr-xr-x   - flume-agent supergroup          0 2015-06-16 12:43 /raw/logs/arquimedes/2015-06-16
-rw-r--r--   3 flume-agent supergroup       3814 2015-06-16 12:33 /raw/logs/arquimedes/2015-06-16/SomeLogs.1434471803369
-rw-r--r--   3 flume-agent supergroup       3719 2015-06-16 12:43 /raw/logs/arquimedes/2015-06-16/SomeLogs.1434472404774


$ hadoop fs -cat /raw/logs/somes/2015-06-16/SomeLogs.1434471803369 | head




$

Run Code Online (Sandbox Code Playgroud)

(你看起来没错,空行)

如果现在我查看该文件(HUE例如使用二进制视图):

0000000:    0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a   ................
0000010:    0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a   ................
0000020:    0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a 0a   ................

Run Code Online (Sandbox Code Playgroud)

Answer 1

frb*_*frb 4

如果我理解得很好，您想要序列化数据和标题。在这种情况下，您不必修改数据源，而是使用一些标准 Flume 元素并为 HDFS 创建自定义序列化器。

第一步是实现Flume创建所需的JSON结构，即headers+body。Flume 能够为您做到这一点，只需在您的 HTTPSource 中使用JSONHandler，如下所示：

a1.sources = r1
a1.sources.r1.hnadler = org.apache.flume.source.http.JSONHandler

Run Code Online (Sandbox Code Playgroud)

事实上，没有必要配置 JSON 处理程序，因为它是 HTTPSource 的默认处理程序。

然后，使用时间戳拦截器和主机拦截器来添加所需的标头。唯一的技巧是 Flume 代理必须与发送方进程在同一台机器上运行，以便拦截的主机与发送方主机相同：

a1.sources.r1.interceptors = i1 i2
a1.sources.r1.interceptors.i1.type = timestamp
a1.sources.r1.interceptors.i2.type = host
a1.sources.r1.interceptors.i2.hostHeader = hostname

Run Code Online (Sandbox Code Playgroud)

此时，您将获得所需的事件。然而，HDFS 的标准序列化器仅保存主体，而不保存标头。因此创建一个实现org.apache.flume.serialization.EventSerializer. 它配置为：

a1.sinks = k1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.serializer = my_custom_serializer

Run Code Online (Sandbox Code Playgroud)

华泰

归档时间：	10 年，2 月前
查看次数：	6259 次
最近记录：	8 年，1 月前