如何在一组切片中将来自熊猫系列的连续NaN值分组？

Question

如何在一组切片中将来自熊猫系列的连续NaN值分组？

Che*_*uCR 7 python numpy nan python-3.x pandas

我想将连续NaN值合并成片。有没有简单的方法来用numpy或pandas做到这一点？

l = [
    (996, np.nan), (997, np.nan), (998, np.nan),
    (999, -47.3), (1000, -72.5), (1100, -97.7),
    (1200, np.nan), (1201, np.nan), (1205, -97.8),
    (1300, np.nan), (1302, np.nan), (1305, -97.9),
    (1400, np.nan), (1405, -97.10), (1408, np.nan)
]
l = pd.Series(dict(l))

Run Code Online (Sandbox Code Playgroud)

预期结果：

[
    (slice(996, 999, None), array([nan, nan, nan])),
    (999, -47.3),
    (1000, -72.5),
    (1100, -97.7),
    (slice(1200, 1202, None), array([nan, nan])),
    (1205, -97.8),
    (slice(1300, 1301, None), array([nan])),
    (slice(1302, 1303, None), array([nan])),
    (1305, -97.9),
    (slice(1400, 1401, None), array([nan])),
    (1405, -97.1),
    (slice(1408, 1409, None), array([nan]))
]

Run Code Online (Sandbox Code Playgroud)

具有二维的numpy数组也可以，而不是元组列表

更新2019/05/31：我刚刚意识到，如果我只使用字典而不是熊猫系列，那么算法效率会更高

Answer 1

Ser*_*sta 2

您想要的是完整或极端情况、nan 相等、每对的第一个元素是切片或单个值，第二个元素是 np.array 或单个值。

对于如此复杂的需求，我只会依赖简单的 Python 非向量化方式：

def trans(ser):
    def build(last, cur, val):
        if cur == last + 1:
            if np.isnan(val):
                return (slice(last, cur), np.array([np.nan]))
            else:
                return (last, val)
        else:
            return (slice(last, cur), np.array([val] * (cur - last)))
    last = ser.iloc[0]
    old = last_index = ser.index[0]
    resul = []
    for i in ser.index[1:]:
        val = ser[i]
        if ((val != last) and not(np.isnan(val) and np.isnan(last))) \
           or i != old + 1:
            resul.append(build(last_index, old + 1, last))
            last_index = i
            last = val
        old = i
    resul.append(build(last_index, old+1, last))
    return resul

Run Code Online (Sandbox Code Playgroud)

它给出了接近预期结果的结果：

[(slice(996, 999, None), array([nan, nan, nan])),
 (999, -47.3),
 (1000, -72.5),
 (1100, -97.7),
 (slice(1200, 1202, None), array([nan, nan])),
 (1205, -97.8),
 (slice(1300, 1301, None), array([nan])),
 (slice(1302, 1303, None), array([nan])),
 (1305, -97.9),
 (slice(1400, 1401, None), array([nan])),
 (1405, -97.1),
 (slice(1408, 1409, None), array([nan]))]

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，7 月前
查看次数：	91 次
最近记录：	6 年，7 月前