小编tim*_*ler的帖子

apache flink 0.10如何从无界输入dataStream中获取复合键的第一次出现?

我是apache flink的新手.我的输入中有一个未绑定的数据流(通过kakfa送入flink 0.10).

我想获得每个主键的第一次出现(主键是contract_num和event_dt).
这些"重复"几乎在彼此之后立即发生.源系统不能为我过滤这个,所以flink必须这样做.

这是我的输入数据:
contract_num,event_dt,attr
A1,2016-02-24 10:25: 08,X
A1,2016-02-24
10:25: 08,Y A1,2016-02-24 10:25: 09,Z
A2,2016-02-24 10:25:10,C

这是我想要的输出数据:
A1,2016-02-24 10 :25: 08,X A1,2016-02-24 10 :25:
09,Z A2,2016-02-24 10 :25:10
,C

请注意第2行已被删除,因为A001和'2016-02-24 10:25:08'的组合键已在第1行中出现.

我怎么能用flink 0.10做到这一点?

我正在考虑使用keyBy(0,1),
但之后我不知道该怎么做!

(我使用joda-time和org.flinkspector来设置这些测试).

contract_num, event_dt, attr 
A1, 2016-02-24 10:25:08, X
A1, 2016-02-24 10:25:08, Y
A1, 2016-02-24 10:25:09, Z
A2, 2016-02-24 10:25:10, C
Run Code Online (Sandbox Code Playgroud)

apache-flink flink-streaming

6
推荐指数
1
解决办法
2006
查看次数

标签 统计

apache-flink ×1

flink-streaming ×1