用已知的倾角平滑时间序列的函数

Question

用已知的倾角平滑时间序列的函数

我有一段时间的互联网测量实验结果，如下图所示。我正在熊猫中进行时间序列分析。由于服务器中断，数据有所下降。我正在寻找平滑数据的好方法。

在更简单的内置平滑函数中，pd.rolling_max()提供了相当好的估计。然而，它有点高估了。我还尝试编写了自己的平滑函数，当下降 >20% 时，它会向前传递值。这也提供了一个相当好的估计，但阈值是任意设置的。

def my_smooth(win, thresh = 0.80):
    win = win.copy()
    for i, val in enumerate(win):
        if i > 1 and val < win[i-1] * thresh:
            win[i] = win[i-1]       
    return win[-1]

ts = pd.rolling_apply(ts, 6, my_smooth)

Run Code Online (Sandbox Code Playgroud)

我的问题是，鉴于特定特征，对于此类时间序列，什么是更好的平滑函数？（即，它是事件计数，并且在特定时间计数时主要测量误差很大）。另外，我建议的平滑功能是否可以减少临时或优化？

在此处输入图片说明

Answer 1

Had*_*adi 5

我想补充一下我最终是如何为其他感兴趣的人解决这个问题的。首先，在查看了许多平滑技术之后，我最终决定不使用平滑，因为它会改变数据。相反，我选择过滤掉 10% 的点作为异常值，这是机器学习和信号处理中的常用技术。

在我们的案例中，异常值是由测量记录失败引起的低测量值。有多种检测异常值的技术，其中最流行的技术在 NIST 的工程统计手册中有所提及。鉴于我的数据中的明显趋势，我选择了“中值绝对偏差”的变体：将测量系列中的每个点与滚动中值进行比较，产生差异，并适当地选择一个截止点。

# 'data' are the weekly measurements, in a Pandas series
filtered = data.copy()
dm = pd.rolling_median(data, 9, center=True) 
df = sorted(np.abs(data - dm).dropna(), reverse=True)
cutoff = df[len(df) // 10]
filtered[np.abs(data - dm) > cutoff] = np.nan

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，8 月前
查看次数：	1584 次
最近记录：	10 年，12 月前