事件关联和过滤 - 如何,从哪里开始？

mik*_*one 9 python erlang classification machine-learning correlation

获得了异步事件流,其中每个事件都包含以下信息:

代理商(我的解决方案可能提供服务的众多代理商之一)
代理(代理商中的众多代理商之一)
服务实体(由一个或多个代理机构服务的人/组织)
日期+时间
类数据(来自固定但大量标签的标签)

我需要做的是 -

根据服务实体,日期+时间和类数据关联事件,并创建合并的新事件.例:

事件#0021:{Agency ='XYZ',Agent ='ABC',Served-Entity ='MMN',Date + Time = '12 -03-2011/11:03:37',Class-Date ='miss-交付,不重复,无法解决,孤儿'}

事件#0193:{Agency ='KLM',Agent ='DAY',Served-Entity ='MMN',Date + Time = '12 -03-2011/12:32:21',Class-Date ='miss-送货,孤儿,丢失'}

事件#1217:{Agency ='KLM',Agent ='CARE',Served-Entity ='MMN',Date + Time = '12 -03-2011/18:50:45',Class-Date ='escalated' }

在这里,我发现3个事件间隔时间(超过7小时分离),这些事件是针对相同的服务实体(MMN),在特定时间窗口(例如24小时)内发生,具有匹配或相关的类数据.
最后创建一个统一(新)事件,它可以代表一个推理.
能够基于特定类别数据标签(例如,错过交付)等特定时间段内的每个服务实体来创建每个代理商,每个代理商的报告.这可以使用原始/输入事件或合成(推理)事件来完成.
虽然这不是今天的要求,但很可能在将来出现,但是类数据中出现的"标签"可能会增长,而无需任何人为干预.所以不确定是否应该将其视为非结构化数据.
也不是一个直接的要求,但将来可能需要确定事件发生的趋势/模式(即Event1导致Event2导致Event3).

事件到达率可能非常高......可能每分钟有数千个事件.也许更多.并且,我需要将原始/合成事件存档一段时间(一个月左右).

我的解决方案需要基于FOSS组件(最好).到目前为止进行的一些研究指出了CEP(复杂事件处理),贝叶斯网络/分类,预测分析的方向.

寻找有关采取措施的一些建议.我更倾向于采用符合我目标的路径,最小的难度/时间,或换句话说,"学习AI"或"正式的统计方法"不是我的短期目标:-)

麦克风，

您是否考虑过像 Esper/Nesper 这样的东西来看看它们是否可以满足您的要求？虽然我自己也看过类似的东西 - 特别是在 Erlang 上（请在此处查看我的帖子），并且您会在那里找到一些有用的答案。

我知道了

归档时间：	14 年，10 月前
查看次数：	1540 次
最近记录：	14 年，10 月前

任何在Erlang中实时关联/分析事件流(又名CEP)的框架？ 5

更多相关链接

在Python中定义类变量的正确方法 231

如何在Django的urls.py中直接进入模板？ 102

Python NLTK:SyntaxError:文件中的非ASCII字符'\ xc3'(Senitment Analysis -NLP) 55

“git”命令需要命令行开发人员工具。您想安装吗？ 43

如何提供Spark MLlib模型？ 35

可以自动找到停止词吗？ 12

两个矩阵之间的Matlab相关性 7

数据识别用于数据挖掘和基于文本的分析 4

半成熟的TCP连接 3

如何在Erlang中获取fread一个没有""的字符串 2

JavaScript中使用"严格"做什么,背后的原因是什么？ 7339

如何将新的本地分支推送到远程Git存储库并跟踪它？ 4154

是什么 !!(不是)JavaScript中的运算符？ 2906

什么是__init__.py？ 2074

用于更新和删除的HTTP状态代码？ 1264

如何在SQL中使用JOIN执行UPDATE语句？ 1262

如何配置git在本地忽略某些文件？ 1237

如何使用Windows开发机器为iPhone开发？ 1161

LF将被git中的CRLF取代 - 这是什么,它是否重要？ 1146

什么是Python 3相当于"python -m SimpleHTTPServer" 1124