Dan*_*hoa 10 python numpy dataframe pandas
我有两个matricies,对应数据点(x,y1)和(x,y2):
x | y1
------------
0 | 0
1 | 1
2 | 2
3 | 3
4 | 4
5 | 5
x | y2
----------------
0.5 | 0.5
1.5 | 1.5
2.5 | 2.5
3.5 | 3.5
4.5 | 4.5
5.5 | 5.5
Run Code Online (Sandbox Code Playgroud)
我想创建,结合了一个新的矩阵x值成一列,并具有NaNS IN合适y1,y2列:
x | y1 | y2
-----------------------------
0 | 0 | NaN
0.5 | NaN | 0.5
1 | 0 | NaN
1.5 | NaN | 1.5
... | ... | ...
5 | 5 | NaN
5.5 | NaN | 5.5
Run Code Online (Sandbox Code Playgroud)
是否有捷径可寻?我是Python和NumPy(来自MATLAB)的新手,我不确定我是怎么开始的.(作为参考,我在MATLAB中对此的处理方法只是使用outerjoin对生成的两个表array2table.)
如果您可以将数据加载到单独的pandas数据框中,这就变得简单了.
df
x y1
0 0 0
1 1 1
2 2 2
3 3 3
4 4 4
5 5 5
df2
x y2
0 0.5 0.5
1 1.5 1.5
2 2.5 2.5
3 3.5 3.5
4 4.5 4.5
5 5.5 5.5
Run Code Online (Sandbox Code Playgroud)
执行外部操作merge,并对x列进行排序.
df = df.merge(df2, how='outer').sort_values('x')
df
x y1 y2
0 0 0 NaN
6 0.5 NaN 0.5
1 1 1 NaN
7 1.5 NaN 1.5
2 2 2 NaN
8 2.5 NaN 2.5
3 3 3 NaN
9 3.5 NaN 3.5
4 4 4 NaN
10 4.5 NaN 4.5
5 5 5 NaN
11 5.5 NaN 5.5
Run Code Online (Sandbox Code Playgroud)
如果你想要一个数组,请调用.values结果:
df.values
array([[0.0, 0.0, nan],
[0.5, nan, 0.5],
[1.0, 1.0, nan],
[1.5, nan, 1.5],
[2.0, 2.0, nan],
[2.5, nan, 2.5],
[3.0, 3.0, nan],
[3.5, nan, 3.5],
[4.0, 4.0, nan],
[4.5, nan, 4.5],
[5.0, 5.0, nan],
[5.5, nan, 5.5]], dtype=object)
Run Code Online (Sandbox Code Playgroud)
结构化数组方法(不完整):
输入一个特殊的recfunctions库:
In [441]: import numpy.lib.recfunctions as rf
Run Code Online (Sandbox Code Playgroud)
定义两个结构化数组
In [442]: A = np.zeros((6,),[('x',int),('y',int)])
Run Code Online (Sandbox Code Playgroud)
哎呀,“x keys inB are float, so for consistency, let's make theA”也漂浮了。不必要时不要混合浮点数和整数。
In [446]: A = np.zeros((6,),[('x',float),('y',int)])
In [447]: A['x']=np.arange(6)
In [448]: A['y']=np.arange(6)
In [449]: A
Out[449]:
array([( 0., 0), ( 1., 1), ( 2., 2), ( 3., 3), ( 4., 4), ( 5., 5)],
dtype=[('x', '<f8'), ('y', '<i4')])
In [450]: B = np.zeros((6,),[('x',float),('z',float)])
In [451]: B['x']=np.linspace(.5,5.5,6)
In [452]: B['z']=np.linspace(.5,5.5,6)
In [453]: B
Out[453]:
array([( 0.5, 0.5), ( 1.5, 1.5), ( 2.5, 2.5), ( 3.5, 3.5),
( 4.5, 4.5), ( 5.5, 5.5)],
dtype=[('x', '<f8'), ('z', '<f8')])
Run Code Online (Sandbox Code Playgroud)
查看该rf.join_by函数的文档:
In [454]: rf.join_by?
Run Code Online (Sandbox Code Playgroud)
进行outer连接:
In [457]: rf.join_by('x',A,B,'outer')
Out[457]:
masked_array(data = [(0.0, 0, --) (0.5, --, 0.5) (1.0, 1, --) (1.5, --, 1.5) (2.0, 2, --)
(2.5, --, 2.5) (3.0, 3, --) (3.5, --, 3.5) (4.0, 4, --) (4.5, --, 4.5)
(5.0, 5, --) (5.5, --, 5.5)],
mask = [(False, False, True) (False, True, False) (False, False, True)
(False, True, False) (False, False, True) (False, True, False)
(False, False, True) (False, True, False) (False, False, True)
(False, True, False) (False, False, True) (False, True, False)],
fill_value = ( 1.00000000e+20, 999999, 1.00000000e+20),
dtype = [('x', '<f8'), ('y', '<i4'), ('z', '<f8')])
Run Code Online (Sandbox Code Playgroud)
结果是一个屏蔽数组,其中缺失值被屏蔽。
同样的事情,但屏蔽关闭:
In [460]: rf.join_by('x',A,B,'outer',usemask=False)
Out[460]:
array([( 0. , 0, 1.00000000e+20), ( 0.5, 999999, 5.00000000e-01),
( 1. , 1, 1.00000000e+20), ( 1.5, 999999, 1.50000000e+00),
( 2. , 2, 1.00000000e+20), ( 2.5, 999999, 2.50000000e+00),
( 3. , 3, 1.00000000e+20), ( 3.5, 999999, 3.50000000e+00),
( 4. , 4, 1.00000000e+20), ( 4.5, 999999, 4.50000000e+00),
( 5. , 5, 1.00000000e+20), ( 5.5, 999999, 5.50000000e+00)],
dtype=[('x', '<f8'), ('y', '<i4'), ('z', '<f8')])
Run Code Online (Sandbox Code Playgroud)
现在我们可以明确地看到填充值。必须有一种方法可以用1e20替换np.nan。替换999999为nan更混乱,因为它np.nan是浮点值,而不是整数。
在幕后,这join_by可能首先使用 , 创建一个blank数组join dtype,并逐一填充字段。