scikit-learn:如何以百分比计算均方根误差(RMSE)?

Des*_*gos 4 python python-3.x pandas random-forest scikit-learn

我有以下格式的数据集(在此链接中找到:https : //drive.google.com/open?id=0B2Iv8dfU4fTUY2ltNGVkMG05V00)。

 time     X   Y
0.000543  0  10
0.000575  0  10
0.041324  1  10
0.041331  2  10
0.041336  3  10
0.04134   4  10
  ...
9.987735  55 239
9.987739  56 239
9.987744  57 239
9.987749  58 239
9.987938  59 239
Run Code Online (Sandbox Code Playgroud)

数据集中的第三列(Y)是我的真实值-这就是我想要预测(估计)的值。我想做一个预测Y(即Y根据的前100个滚动值来预测的当前值X。为此,我python使用编写以下脚本random forest regression model

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""

@author: deshag
"""

import pandas as pd
import numpy as np
from io import StringIO
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from math import sqrt



df = pd.read_csv('estimated_pred.csv')

for i in range(1,100):
    df['X_t'+str(i)] = df['X'].shift(i)

print(df)

df.dropna(inplace=True)


X=pd.DataFrame({ 'X_%d'%i : df['X'].shift(i) for i in range(100)}).apply(np.nan_to_num, axis=0).values


y = df['Y'].values


reg = RandomForestRegressor(criterion='mse')
reg.fit(X,y)
modelPred = reg.predict(X)
print(modelPred)

print("Number of predictions:",len(modelPred))

meanSquaredError=mean_squared_error(y, modelPred)
print("MSE:", meanSquaredError)
rootMeanSquaredError = sqrt(meanSquaredError)
print("RMSE:", rootMeanSquaredError)
Run Code Online (Sandbox Code Playgroud)

在结束时,我测量根均方误差(RMSE)与有一个RMSE19.57。根据我从文档中看到的内容,它说平方误差与响应的单位相同。有什么方法可以表示RMSE百分比值?例如,说这个预测百分比是正确的,而这是错误的。

在最新版本的中有一个check_array用于计算的函数mean absolute percentage error (MAPE)sklearn但是当我尝试使用以下版本时,它似乎与先前版本的工作方式不同。

import numpy as np
from sklearn.utils import check_array

def calculate_mape(y_true, y_pred): 
y_true, y_pred = check_array(y_true, y_pred)

    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

calculate_mape(y, modelPred)
Run Code Online (Sandbox Code Playgroud)

这将返回错误:ValueError: not enough values to unpack (expected 2, got 1)。这似乎是check_array最新版本中的函数仅返回单个值,这与先前版本不同。

有什么方法可以显示RMSE百分比或MAPE使用sklearnfor Python

Imr*_*ran 5

您的的实现calculate_mape无法正常运行,因为您需要使用check_arrays已在中删除的功能sklearn 0.16check_array不是你想要的。

这个 StackOverflow答案给出了一个可行的实现。