Mar*_*man 16 python arrays string numpy slice
Numpy有一些非常有用的字符串操作,它们可以对通常的Python字符串操作进行矢量化.
与这些操作相比pandas.str,numpy strings模块似乎缺少一个非常重要的模块:能够切割数组中的每个字符串.例如,
a = numpy.array(['hello', 'how', 'are', 'you'])
numpy.char.sliceStr(a, slice(1, 3))
>>> numpy.array(['el', 'ow', 're' 'ou'])
Run Code Online (Sandbox Code Playgroud)
我是否错过了具有此功能的模块中的一些明显方法?否则,有一种快速的矢量化方式来实现这一目标吗?
Div*_*kar 11
这是一个矢量化的方法 -
def slicer_vectorized(a,start,end):
b = a.view((str,1)).reshape(len(a),-1)[:,start:end]
return np.fromstring(b.tostring(),dtype=(str,end-start))
Run Code Online (Sandbox Code Playgroud)
样品运行 -
In [68]: a = np.array(['hello', 'how', 'are', 'you'])
In [69]: slicer_vectorized(a,1,3)
Out[69]:
array(['el', 'ow', 're', 'ou'],
dtype='|S2')
In [70]: slicer_vectorized(a,0,3)
Out[70]:
array(['hel', 'how', 'are', 'you'],
dtype='|S3')
Run Code Online (Sandbox Code Playgroud)
运行时测试 -
测试其他作者发布的我可以在我的最后运行的所有方法,还包括本文前面的矢量化方法.
这是时间 -
In [53]: # Setup input array
...: a = np.array(['hello', 'how', 'are', 'you'])
...: a = np.repeat(a,10000)
...:
# @Alberto Garcia-Raboso's answer
In [54]: %timeit slicer(1, 3)(a)
10 loops, best of 3: 23.5 ms per loop
# @hapaulj's answer
In [55]: %timeit np.frompyfunc(lambda x:x[1:3],1,1)(a)
100 loops, best of 3: 11.6 ms per loop
# Using loop-comprehension
In [56]: %timeit np.array([i[1:3] for i in a])
100 loops, best of 3: 12.1 ms per loop
# From this post
In [57]: %timeit slicer_vectorized(a,1,3)
1000 loops, best of 3: 787 µs per loop
Run Code Online (Sandbox Code Playgroud)