Statsmodels：使用 ARIMA 实施直接和递归多步骤预测策略

Question

Statsmodels：使用 ARIMA 实施直接和递归多步骤预测策略

Aes*_*sir 5 python time-series forecasting statsmodels forecast

我目前正在尝试使用 statsmodels ARIMA 库实现直接和递归多步骤预测策略，它提出了一些问题。

递归多步预测策略将训练单步模型，预测下一个值，将预测值附加到输入预测方法的外生值的末尾并重复。这是我的递归实现：

def arima_forecast_recursive(history, horizon=1, config=None):
    # make list so can add / remove elements
    history = history.tolist()
    model = ARIMA(history, order=config)
    model_fit = model.fit(trend='nc', disp=0)

    for i, x in enumerate(history):
        yhat = model_fit.forecast(steps=1, exog=history[i:])
        yhat.append(history)
    return np.array(yhat)

def walk_forward_validation(dataframe, config=None):
    n_train = 52  # Give a minimum of 2 forecasting periods to capture any seasonality
    n_test = 26  # Test set should be the size of one forecasting horizon
    n_records = len(dataframe)
    tuple_list = []

    for index, i in enumerate(range(n_train, n_records)):
        # create the train-test split
        train, test = dataframe[0:i], dataframe[i:i + n_test]

        # Test set is less than forecasting horizon so stop here.
        if len(test) < n_test:
            break

        yhat = arima_forecast_recursive(train, n_test, config)
        results = smape3(test, yhat)
        tuple_list.append(results)

    return tuple_list

Run Code Online (Sandbox Code Playgroud)

类似地，为了执行直接策略，我只需将模型拟合到可用的训练数据上，并使用它来立即预测总的多步骤预测。我不确定如何使用 statsmodels 库来实现这一点。

我的尝试（产生结果）如下：

def walk_forward_validation(dataframe, config=None):
    # This currently implements a direct forecasting strategy
    n_train = 52  # Give a minimum of 2 forecasting periods to capture any seasonality
    n_test = 26  # Test set should be the size of one forecasting horizon
    n_records = len(dataframe)
    tuple_list = []

    for index, i in enumerate(range(n_train, n_records)):
        # create the train-test split
        train, test = dataframe[0:i], dataframe[i:i + n_test]

        # Test set is less than forecasting horizon so stop here.
        if len(test) < n_test:
            break

        yhat = arima_forecast_direct(train, n_test, config)
        results = smape3(test, yhat)
        tuple_list.append(results)

    return tuple_list

def arima_forecast_direct(history, horizon=1, config=None):
    model = ARIMA(history, order=config)
    model_fit = model.fit(trend='nc', disp=0)
    return model_fit.forecast(steps=horizon)[0]

Run Code Online (Sandbox Code Playgroud)

让我特别困惑的是，模型是否应该只适合所有预测一次，还是应该多次适合多步预测中的单个预测？摘自Souhaib Ben Taieb 的博士论文（第 35 页第 3 段），其中提出直接模型将估计 H 个模型，其中 H 是预测范围的长度，因此在我的示例中，预测范围为 26，应估计 26 个模型而不是只有一个。如上所示，我当前的实现仅适合一种模型。

我不明白的是，如果我对同一训练数据多次调用 ARIMA.fit() 方法，我将得到一个模型，该模型将得到与预期正常随机变化之外的任何不同的拟合？

我的最后一个问题是关于优化。使用诸如前向验证之类的方法可以给我带来统计上非常显着的结果，但对于许多时间序列来说，它的计算成本非常高。上述两个实现都已使用 joblib 并行循环执行功能进行调用，这显着减少了我笔记本电脑上的运行时间。但是我想知道是否可以对上述实现做任何事情以使它们更加高效。当针对约 2000 个单独的时间序列（所有系列总共约 500,000 个数据点）运行这些方法时，运行时间为 10 小时。我已经分析了代码，大部分执行时间都花在 statsmodels 库中，这很好，但是 walk_forward_validation() 方法和 ARIMA.fit() 的运行时之间存在差异。这是预期的，因为显然 walk_forward_validation() 方法除了调用 fit 方法之外还执行其他操作，但如果可以更改其中的任何内容以加快执行时间，请告诉我。

这段代码的想法是找到每个时间序列的最佳 arima 顺序，因为单独研究 2000 个时间序列是不可行的，因此每个时间序列 walk_forward_validation() 方法被调用 27 次。总共大约 27,000 次。因此，在此方法中可以找到的任何性能节省都会产生影响，无论它有多小。

Answer 1

Ale*_*man 5

通常，ARIMA只能进行递归预测，不能进行直接预测。可能会对用于直接预测的 ARIMA 变体进行一些研究，但它们不会在 Statsmodels 中实现。在 statsmodels 中（或在 R auto.arima() 中），当您设置 h > 1 的值时，它只需执行递归预测即可到达该值。

据我所知，还没有标准预测库实现直接预测，您必须自己编写代码。

摘自 Souhaib Ben Taieb 的博士论文（第 35 页第 3 段），其中提出直接模型将估计 H 个模型，其中 H 是预测范围的长度，因此在我的示例中，预测范围为 26，应估计 26 个模型而不是只有一个。

我没有读过Ben Taieb的论文，但是从他的论文《时间序列预测的机器学习策略》来看，对于直接预测，对于一个H值只有一个模型。所以对于H=26，只会有一个模型。如果需要对 1 到 H 之间的每个值进行预测，就会有 H 模型，但对于一个 H，只有一个模型。

归档时间：	7 年，3 月前
查看次数：	4807 次
最近记录：	7 年，3 月前