Vat*_*ine 8 algorithm statistics trending
我发现自己需要处理捕获的网络流量tcpdump.阅读流量并不难,但有点棘手的是发现流量中出现"峰值"的地方.我最关心的是TCP SYN数据包,我想要做的是找到某个目标端口的流量突然上升的日子.有相当多的数据需要处理(大约一年).
我到目前为止所尝试的是使用指数移动平均线,这足以让我得到一些有趣的措施,但比较我所看到的外部数据源似乎有点过于激进不正常.
我考虑过使用指数移动平均线和历史数据的组合(可能是过去7天,认为应该每周一次到我所看到的周期),因为我读过的一些论文似乎有设法以这种方式模拟资源使用并获得成功.
那么,有没有人知道一个好的方法或某个地方去阅读这类事情.
我一直在使用的移动平均线看起来大致如下:
avg = avg+0.96*(new-avg)
Run Code Online (Sandbox Code Playgroud)
随着avg作为EMA和new作为新措施.我一直在试验使用什么阈值,但发现"必须是一个给定的因子高于在权衡新值之前的平均值"和"必须至少高3"才能得到最差的结果.
这在入侵检测文献中被广泛研究.这是一篇关于该问题的开创性论文,其中展示了如何分析tcpdump数据以获得相关见解.
这篇论文是:http://www.usenix.org/publications/library/proceedings/sec98/full_papers/full_papers/lee/lee_html/lee.html这里他们使用了RIPPER规则归纳系统,我想你可以替换那个旧的一个更新的东西,如http://www.newty.de/pnc2/或http://www.data-miner.com/rik.html