将numpy数组与一个共同维度"合并"

Dan*_*hoa 10 python numpy dataframe pandas

我有两个matricies,对应数据点(x,y1)(x,y2):

   x  |  y1
------------
   0  |  0
   1  |  1
   2  |  2
   3  |  3
   4  |  4
   5  |  5

    x   |  y2
----------------
   0.5  |  0.5
   1.5  |  1.5
   2.5  |  2.5
   3.5  |  3.5
   4.5  |  4.5
   5.5  |  5.5
Run Code Online (Sandbox Code Playgroud)

我想创建,结合了一个新的矩阵x值成一列,并具有NaNS IN合适y1,y2列:

    x    |    y1    |   y2
-----------------------------
    0    |     0    |  NaN
    0.5  |    NaN   |  0.5
    1    |     0    |  NaN
    1.5  |    NaN   |  1.5
    ...  |    ...   |  ...
    5    |     5    |  NaN
    5.5  |    NaN   |  5.5 
Run Code Online (Sandbox Code Playgroud)

是否有捷径可寻?我是Python和NumPy(来自MATLAB)的新手,我不确定我是怎么开始的.(作为参考,我在MATLAB中对此的处理方法只是使用outerjoin对生成的两个表array2table.)

cs9*_*s95 5

如果您可以将数据加载到单独的pandas数据框中,这就变得简单了.

df

   x  y1
0  0   0
1  1   1
2  2   2
3  3   3
4  4   4
5  5   5

df2

     x   y2
0  0.5  0.5
1  1.5  1.5
2  2.5  2.5
3  3.5  3.5
4  4.5  4.5
5  5.5  5.5
Run Code Online (Sandbox Code Playgroud)

执行外部操作merge,并对x列进行排序.

df = df.merge(df2, how='outer').sort_values('x')
df

      x   y1   y2
0     0    0  NaN
6   0.5  NaN  0.5
1     1    1  NaN
7   1.5  NaN  1.5
2     2    2  NaN
8   2.5  NaN  2.5
3     3    3  NaN
9   3.5  NaN  3.5
4     4    4  NaN
10  4.5  NaN  4.5
5     5    5  NaN
11  5.5  NaN  5.5
Run Code Online (Sandbox Code Playgroud)

如果你想要一个数组,请调用.values结果:

df.values

array([[0.0, 0.0, nan],
       [0.5, nan, 0.5],
       [1.0, 1.0, nan],
       [1.5, nan, 1.5],
       [2.0, 2.0, nan],
       [2.5, nan, 2.5],
       [3.0, 3.0, nan],
       [3.5, nan, 3.5],
       [4.0, 4.0, nan],
       [4.5, nan, 4.5],
       [5.0, 5.0, nan],
       [5.5, nan, 5.5]], dtype=object)
Run Code Online (Sandbox Code Playgroud)


hpa*_*ulj 5

结构化数组方法(不完整):

输入一个特殊的recfunctions库:

In [441]: import numpy.lib.recfunctions as rf
Run Code Online (Sandbox Code Playgroud)

定义两个结构化数组

In [442]: A = np.zeros((6,),[('x',int),('y',int)])
Run Code Online (Sandbox Code Playgroud)

哎呀,“x keys inB are float, so for consistency, let's make theA”也漂浮了。不必要时不要混合浮点数和整数。

In [446]: A = np.zeros((6,),[('x',float),('y',int)])
In [447]: A['x']=np.arange(6)
In [448]: A['y']=np.arange(6)
In [449]: A
Out[449]: 
array([( 0., 0), ( 1., 1), ( 2., 2), ( 3., 3), ( 4., 4), ( 5., 5)],
      dtype=[('x', '<f8'), ('y', '<i4')])

In [450]: B = np.zeros((6,),[('x',float),('z',float)])
In [451]: B['x']=np.linspace(.5,5.5,6)
In [452]: B['z']=np.linspace(.5,5.5,6)
In [453]: B
Out[453]: 
array([( 0.5,  0.5), ( 1.5,  1.5), ( 2.5,  2.5), ( 3.5,  3.5),
       ( 4.5,  4.5), ( 5.5,  5.5)],
      dtype=[('x', '<f8'), ('z', '<f8')])
Run Code Online (Sandbox Code Playgroud)

查看该rf.join_by函数的文档:

In [454]: rf.join_by?
Run Code Online (Sandbox Code Playgroud)

进行outer连接:

In [457]: rf.join_by('x',A,B,'outer')
Out[457]: 
masked_array(data = [(0.0, 0, --) (0.5, --, 0.5) (1.0, 1, --) (1.5, --, 1.5) (2.0, 2, --)
 (2.5, --, 2.5) (3.0, 3, --) (3.5, --, 3.5) (4.0, 4, --) (4.5, --, 4.5)
 (5.0, 5, --) (5.5, --, 5.5)],
             mask = [(False, False,  True) (False,  True, False) (False, False,  True)
 (False,  True, False) (False, False,  True) (False,  True, False)
 (False, False,  True) (False,  True, False) (False, False,  True)
 (False,  True, False) (False, False,  True) (False,  True, False)],
       fill_value = (  1.00000000e+20, 999999,   1.00000000e+20),
            dtype = [('x', '<f8'), ('y', '<i4'), ('z', '<f8')])
Run Code Online (Sandbox Code Playgroud)

结果是一个屏蔽数组,其中缺失值被屏蔽。

同样的事情,但屏蔽关闭:

In [460]: rf.join_by('x',A,B,'outer',usemask=False)
Out[460]: 
array([( 0. ,      0,   1.00000000e+20), ( 0.5, 999999,   5.00000000e-01),
       ( 1. ,      1,   1.00000000e+20), ( 1.5, 999999,   1.50000000e+00),
       ( 2. ,      2,   1.00000000e+20), ( 2.5, 999999,   2.50000000e+00),
       ( 3. ,      3,   1.00000000e+20), ( 3.5, 999999,   3.50000000e+00),
       ( 4. ,      4,   1.00000000e+20), ( 4.5, 999999,   4.50000000e+00),
       ( 5. ,      5,   1.00000000e+20), ( 5.5, 999999,   5.50000000e+00)],
      dtype=[('x', '<f8'), ('y', '<i4'), ('z', '<f8')])
Run Code Online (Sandbox Code Playgroud)

现在我们可以明确地看到填充值。必须有一种方法可以用1e20替换np.nan。替换999999nan更混乱,因为它np.nan是浮点值,而不是整数。

在幕后,这join_by可能首先使用 , 创建一个blank数组join dtype,并逐一填充字段。