xvg*_*vga 3 python statistics time-series significance data-analysis
我有一组新闻文章,其中有统计数据,例如:提及文章的推特帖子数量.统计数据值的自然行为是新帖的数量增长很快,然后随着新闻的老化而减少.
我想知道如何计算统计数据的变化不再显着的天数(例如:对于整个数据集的0.1%,具有一定的置信水平).
你能给出一些提示,在哪里寻找信息和方法吗?我也很欣赏Python中的一些代码示例:)
这个问题实际上是关于时间序列分析.既然您有兴趣确定截止点,那么一个好的起点就是阅读控制图.如果您想深入研究统计数据(超出控制图),那么请查看变更点分析,并查看时间序列中的结构变化.
Python模块:要在Python中执行此分析,NumPy和pandas模块是相关的.statalgo中的这篇文章将使您在Python代码方面走上正轨.(如果您愿意使用R进行分析,请考虑CRAN包tseries和strucchange.)
SE中的相关问题(统计数据):如何检测时间序列数据的变化?
相关现实生活中的例子:在奥萨马·本·拉登去世后,对这条新闻如何在Twitter上传播进行了大量的分析.这篇文章甚至有一节特别与你关于停止传播新闻的问题有关.
最后,您还可以考虑在Stats SE站点中询问此问题.
希望有所帮助.