替换具有平面子范围的数字列表

Question

替换具有平面子范围的数字列表

给出一个数字列表,如下所示:

lst = [0, 10, 15, 17]

Run Code Online (Sandbox Code Playgroud)

我想有从元素的列表i -> i + 3的所有i在lst.如果有重叠的范围,我希望它们合并.

所以,对于上面的例子,我们首先得到:

[0, 1, 2, 3,     10, 11, 12, 13,     15, 16, 17, 18,   17, 18, 19, 20]

Run Code Online (Sandbox Code Playgroud)

但对于最后两组,范围重叠,因此在合并它们时,您有:

[0, 1, 2, 3,     10, 11, 12, 13,     15, 16, 17, 18,     19, 20]

Run Code Online (Sandbox Code Playgroud)

这是我想要的输出.

这就是我的想法:

from collections import OrderedDict

res = list(OrderedDict.fromkeys([y for x in lst for y in range(x, x + 4)]).keys())
print(res) = [0, 1, 2, 3, 10, 11, 12, 13, 15, 16, 17, 18, 19, 20]

Run Code Online (Sandbox Code Playgroud)

但是,这很慢(10000 loops, best of 3: 56 µs per loop).如果可能的话,我想要一个numpy解决方案,或者比这更快的python解决方案.

Answer 1

Div*_*kar 6

方法#1:一种基于broadcasted求和然后np.unique用于获得唯一数字的方法 -

np.unique(np.asarray(lst)[:,None] + np.arange(4))

Run Code Online (Sandbox Code Playgroud)

方法#2:另一种方法基于广播总和然后掩盖 -

def mask_app(lst, interval_len = 4):
    arr = np.array(lst)
    r = np.arange(interval_len)
    ranged_vals = arr[:,None] + r
    a_diff = arr[1:] - arr[:-1]
    valid_mask = np.vstack((a_diff[:,None] > r, np.ones(interval_len,dtype=bool)))
    return ranged_vals[valid_mask]

Run Code Online (Sandbox Code Playgroud)

运行时测试

原创方法 -

from collections import OrderedDict
def org_app(lst):
    list(OrderedDict.fromkeys([y for x in lst for y in range(x, x + 4)]).keys())

Run Code Online (Sandbox Code Playgroud)

计时 -

In [409]: n = 10000

In [410]: lst = np.unique(np.random.randint(0,4*n,(n))).tolist()

In [411]: %timeit org_app(lst)
     ...: %timeit np.unique(np.asarray(lst)[:,None] + np.arange(4))
     ...: %timeit mask_app(lst, interval_len = 4)
     ...: 
10 loops, best of 3: 32.7 ms per loop
1000 loops, best of 3: 1.03 ms per loop
1000 loops, best of 3: 671 µs per loop

In [412]: n = 100000

In [413]: lst = np.unique(np.random.randint(0,4*n,(n))).tolist()

In [414]: %timeit org_app(lst)
     ...: %timeit np.unique(np.asarray(lst)[:,None] + np.arange(4))
     ...: %timeit mask_app(lst, interval_len = 4)
     ...: 
1 loop, best of 3: 350 ms per loop
100 loops, best of 3: 14.7 ms per loop
100 loops, best of 3: 9.73 ms per loop

Run Code Online (Sandbox Code Playgroud)

两个贴出的方法的瓶颈似乎是转换为array,虽然这似乎后来很好.只是为了了解最后一个数据集转换所花费的时间 -

In [415]: %timeit np.array(lst)
100 loops, best of 3: 5.6 ms per loop

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，3 月前
查看次数：	76 次
最近记录：	8 年，3 月前