滚动窗口已修改-将窗口滚动量作为参数添加-前进分析

Question

滚动窗口已修改-将窗口滚动量作为参数添加-前进分析

Eza*_*e11 6 numpy python-3.x pandas cross-validation

我一直在网络上搜索可以创建滚动窗口的方法，以便可以以通用的方式对时间序列执行交叉验证技术，即“前行分析”。

但是，我还没有解决任何在以下方面引入灵活性的解决方案：1）窗口大小（几乎所有方法都具有此功能；例如，pandas 滚动或稍微不同的np.roll）和2）窗口滚动量，即如何我们想滚动窗口很多索引（即，没有找到任何包含此索引的索引）。

我一直在这个答案的@coldspeed的帮助下尝试优化和编写简洁的代码（由于无法达到所需的声誉，我无法在此处发表评论；希望尽快到达那里！），但我没有不能计入窗户滚动量。

我的想法：

我尝试了np.roll下面的示例，但没有成功。
我还试图修改下面乘以该ith值的代码，但是我没有使其适合列表理解，而我想维护该列表理解。

3.下面的示例适用于任何大小的窗口，但是，它仅将窗口“滚动”向前一步，我希望可以将其推广到任何一步。

因此，有什么方法可以在列表理解方法中使用这两个参数？或者，¿还有其他我找不到的资源可以使此操作变得容易吗？非常感谢所有帮助。我的示例代码如下：

In [1]: import numpy as np
In [2]: arr = np.random.random((10,3))

In [3]: arr

Out[3]: array([[0.38020065, 0.22656515, 0.25926935],
   [0.13446667, 0.04386083, 0.47210474],
   [0.4374763 , 0.20024762, 0.50494097],
   [0.49770835, 0.16381492, 0.6410294 ],
   [0.9711233 , 0.2004874 , 0.71186102],
   [0.61729025, 0.72601898, 0.18970222],
   [0.99308981, 0.80017134, 0.64955358],
   [0.46632326, 0.37341677, 0.49950571],
   [0.45753235, 0.55642914, 0.31972887],
   [0.4371343 , 0.08905587, 0.74511753]])

In [4]: inSamplePercentage = 0.4
In [5]: outSamplePercentage = 0.3 * inSamplePercentage

In [6]: windowSizeTrain = round(inSamplePercentage * arr.shape[0])
In [7]: windowSizeTest = round(outSamplePercentage * arr.shape[0])
In [8]: windowTrPlusTs = windowSizeTrain + windowSizeTest

In [9]: sliceListX = [arr[i: i + windowTrPlusTs] for i in range(len(arr) - (windowTrPlusTs-1))]

Run Code Online (Sandbox Code Playgroud)

给定窗口长度为5，窗口滚动数量为2，我可以指定以下内容：

Out [15]: 

[array([[0.38020065, 0.22656515, 0.25926935],
    [0.13446667, 0.04386083, 0.47210474],
    [0.4374763 , 0.20024762, 0.50494097],
    [0.49770835, 0.16381492, 0.6410294 ],
    [0.9711233 , 0.2004874 , 0.71186102]]),
 array([[0.4374763 , 0.20024762, 0.50494097],
    [0.49770835, 0.16381492, 0.6410294 ],
    [0.9711233 , 0.2004874 , 0.71186102],
    [0.61729025, 0.72601898, 0.18970222],
    [0.99308981, 0.80017134, 0.64955358]]),
 array([[0.9711233 , 0.2004874 , 0.71186102],
    [0.61729025, 0.72601898, 0.18970222],
    [0.99308981, 0.80017134, 0.64955358],
    [0.46632326, 0.37341677, 0.49950571],
    [0.45753235, 0.55642914, 0.31972887]]),
 array([[0.99308981, 0.80017134, 0.64955358],
   [0.46632326, 0.37341677, 0.49950571],
   [0.45753235, 0.55642914, 0.31972887],
   [0.4371343 , 0.08905587, 0.74511753]])]

Run Code Online (Sandbox Code Playgroud)

（这合并了最后一个数组，尽管其长度小于5）。

要么：

Out [16]: 

[array([[0.38020065, 0.22656515, 0.25926935],
    [0.13446667, 0.04386083, 0.47210474],
    [0.4374763 , 0.20024762, 0.50494097],
    [0.49770835, 0.16381492, 0.6410294 ],
    [0.9711233 , 0.2004874 , 0.71186102]]),
 array([[0.4374763 , 0.20024762, 0.50494097],
    [0.49770835, 0.16381492, 0.6410294 ],
    [0.9711233 , 0.2004874 , 0.71186102],
    [0.61729025, 0.72601898, 0.18970222],
    [0.99308981, 0.80017134, 0.64955358]]),
 array([[0.9711233 , 0.2004874 , 0.71186102],
    [0.61729025, 0.72601898, 0.18970222],
    [0.99308981, 0.80017134, 0.64955358],
    [0.46632326, 0.37341677, 0.49950571],
    [0.45753235, 0.55642914, 0.31972887]])]

Run Code Online (Sandbox Code Playgroud)

（只有长度== 5的数组->但是，这可以从上面的数组中得到一个简单的掩码）。

编辑：也忘记提及这一点 -如果熊猫滚动物体支持迭代法，则可以完成某些操作。

Answer 1

Ben*_*n.T 4

IIUC 你想要什么，你可以使用它np.lib.stride_tricks.as_strided来创建窗口大小和滚动数量的视图，例如：

#redefine arr to see better what is happening than with random numbers
arr = np.arange(30).reshape((10,3))
#get arr properties
arr_0, arr_1 = arr.shape
arr_is = arr.itemsize #the size of element in arr
#parameter window and rolling
win_size = 5
roll_qty = 2
# use as_stribed by defining the right parameters:
from numpy.lib.stride_tricks import as_strided
print (as_strided( arr, 
                   shape=(int((arr_0 - win_size)/roll_qty+1), win_size,arr_1),
                   strides=(roll_qty*arr_1*arr_is, arr_1*arr_is, arr_is)))

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11],
        [12, 13, 14]],

       [[ 6,  7,  8],
        [ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17],
        [18, 19, 20]],

       [[12, 13, 14],
        [15, 16, 17],
        [18, 19, 20],
        [21, 22, 23],
        [24, 25, 26]]])

Run Code Online (Sandbox Code Playgroud)

对于另一个窗口大小和滚动数量：

win_size = 4
roll_qty = 3
print( as_strided( arr, 
                   shape=(int((arr_0 - win_size)/roll_qty+1), win_size,arr_1),
                   strides=(roll_qty*arr_1*arr_is, arr_1*arr_is, arr_is)))

array([[[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]],

       [[ 9, 10, 11],
        [12, 13, 14],
        [15, 16, 17],
        [18, 19, 20]],

       [[18, 19, 20],
        [21, 22, 23],
        [24, 25, 26],
        [27, 28, 29]]])

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年前
查看次数：	742 次
最近记录：	6 年，12 月前