Dav*_*ams 5 python numpy pandas
我正在与Pandas和Numpy合作开展一个iPython项目.我只是在学习,所以这个问题可能非常基础.假设我有两列数据
---------------
| col1 | col2 |
---------------
| a | b |
| c | d |
| b | e |
---------------
Run Code Online (Sandbox Code Playgroud)
我想转换表格的这些数据.
---------------------
| a | b | c | d | e |
---------------------
| 1 | 1 | 0 | 0 | 0 |
| 0 | 0 | 1 | 1 | 0 |
| 0 | 1 | 0 | 0 | 1 |
---------------------
Run Code Online (Sandbox Code Playgroud)
然后我想采取三列版本
---------------------
| col1 | col2 | val |
---------------------
| a | b | .5 |
| c | d | .3 |
| b | e | .2 |
---------------------
Run Code Online (Sandbox Code Playgroud)
把它变成
---------------------------
| a | b | c | d | e | val |
---------------------------
| 1 | 1 | 0 | 0 | 0 | .5 |
| 0 | 0 | 1 | 1 | 0 | .3 |
| 0 | 1 | 0 | 0 | 1 | .2 |
---------------------------
Run Code Online (Sandbox Code Playgroud)
我对熊猫和Numpy很新,我该怎么做?我会用什么功能?
我想你正在寻找pandas.get_dummies()功能和pandas.DataFrame.combineAdd方法.
In [7]: df = pd.DataFrame({'col1': list('acb'),
'col2': list('bde'),
'val': [.5, .3, .2]})
In [8]: df1 = pd.get_dummies(df.col1)
In [9]: df2 = pd.get_dummies(df.col2)
Run Code Online (Sandbox Code Playgroud)
这将生成以下两个数据帧:
In [16]: df1
Out[16]:
a b c
0 1 0 0
1 0 0 1
2 0 1 0
[3 rows x 3 columns]
In [17]: df2
Out[17]:
b d e
0 1 0 0
1 0 1 0
2 0 0 1
[3 rows x 3 columns]
Run Code Online (Sandbox Code Playgroud)
哪个可以组合如下:
In [10]: dummies = df1.combineAdd(df2)
In [18]: dummies
Out[18]:
a b c d e
0 1 1 0 0 0
1 0 0 1 1 0
2 0 1 0 0 1
[3 rows x 5 columns]
Run Code Online (Sandbox Code Playgroud)
最后一步是将val列复制到新数据帧中.
In [19]: dummies['val'] = df.val
In [20]: dummies
Out[20]:
a b c d e val
0 1 1 0 0 0 0.5
1 0 0 1 1 0 0.3
2 0 1 0 0 1 0.2
[3 rows x 6 columns]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1007 次 |
| 最近记录: |