Jib*_*ril 3 python merge numpy
我正在将一些东西从 R 转换到 Python,并且对有效合并感到好奇。我concatenate在 NumPy 中发现了一些东西(使用 NumPy 进行操作,所以我想坚持使用它),但它没有按预期工作。
取两个数据集
d1 = np.array([['1a2', '0'], ['2dd', '0'], ['z83', '1'], ['fz3', '0']])
Run Code Online (Sandbox Code Playgroud)
d1 = np.array([['1a2', '0'], ['2dd', '0'], ['z83', '1'], ['fz3', '0']])
Run Code Online (Sandbox Code Playgroud)
和
d2 = np.array([['1a2', '33.3', '22.2'],
['43m', '66.6', '66.6'],
['z83', '12.2', '22.1']])
Run Code Online (Sandbox Code Playgroud)
ID Label
1a2 0
2dd 0
z83 1
fz3 0
Run Code Online (Sandbox Code Playgroud)
我想将这些合并在一起,结果是
d2 = np.array([['1a2', '33.3', '22.2'],
['43m', '66.6', '66.6'],
['z83', '12.2', '22.1']])
Run Code Online (Sandbox Code Playgroud)
因此,它识别出与 ID 列匹配的行,然后将它们连接在一起。这在 R 中使用 相对简单merge,但在 NumPy 中对我来说不太明显。
有没有办法在我缺少的 NumPy 中本地执行此操作?
这是一个使用掩码的基于 NumPy 的解决方案 -
def numpy_merge_bycol0(d1, d2):
# Mask of matches in d1 against d2
d1mask = np.isin(d1[:,0], d2[:,0])
# Mask of matches in d2 against d1
d2mask = np.isin(d2[:,0], d1[:,0])
# Mask respective arrays and concatenate for final o/p
return np.c_[d1[d1mask], d2[d2mask,1:]]
Run Code Online (Sandbox Code Playgroud)
样品运行 -
In [43]: d1
Out[43]:
array([['1a2', '0'],
['2dd', '0'],
['z83', '1'],
['fz3', '0']], dtype='|S3')
In [44]: d2
Out[44]:
array([['1a2', '33.3', '22.2'],
['43m', '66.6', '66.6'],
['z83', '12.2', '22.1']], dtype='|S4')
In [45]: numpy_merge_bycol0(d1, d2)
Out[45]:
array([['1a2', '0', '33.3', '22.2'],
['z83', '1', '12.2', '22.1']], dtype='|S4')
Run Code Online (Sandbox Code Playgroud)
我们还可以使用broadcasting获取索引,然后用整数索引代替掩码,就像这样 -
idx = np.argwhere(d1[:,0,None] == d2[:,0])
out = np.c_[d1[idx[:,0]], d2[idx[:,0,1:]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1139 次 |
| 最近记录: |