在 Pandas 中添加具有特定 dtype 的新列

Pou*_*del 5 python dataframe pandas

我们可以为熊猫分配一个新列,并一次性声明数据类型吗?

df = pd.DataFrame({'BP': ['100/80'],'Sex': ['M']})
df2 = (df.drop('BP',axis=1)
       .assign(BPS =  lambda x: df.BP.str.extract('(?P<BPS>\d+)/'))
       .assign(BPD =  lambda x: df.BP.str.extract('/(?P<BPD>\d+)'))
        )

print(df2)
df2.dtypes
Run Code Online (Sandbox Code Playgroud)

我们可以仅使用链式表达式将 dtype 设为 np.float 吗?

cs9*_*s95 5

显然,您不必这样做,但您可以。

df.drop('BP', 1).join(
    df['BP'].str.split('/', expand=True)
            .set_axis(['BPS', 'BPD'], axis=1, inplace=False)
            .astype(float))

  Sex    BPS   BPD
0   M  100.0  80.0
Run Code Online (Sandbox Code Playgroud)

str.extract可以取消两次呼叫,而只进行一次str.split呼叫。然后您就可以拨打一个 astype电话。


就我个人而言,如果你问我风格,我会说这看起来更优雅:

u = (df['BP'].str.split('/', expand=True)
             .set_axis(['BPS', 'BPD'], axis=1, inplace=False)
             .astype(float))
df.drop('BP', 1).join(u)


  Sex    BPS   BPD
0   M  100.0  80.0
Run Code Online (Sandbox Code Playgroud)


Mar*_*hke 5

使用df.insert

import pandas as pd

df = pd.DataFrame([[1, 2], [3, 4]], columns=['a', 'b'])
print('df to start with:', df, '\ndtypes:', df.dtypes, sep='\n')
print('\n')

df.insert(
    len(df.columns), 'new col 1', pd.Series([[1, 2, 3], 'a'], dtype=object))
df.insert(
    len(df.columns), 'new col 2', pd.Series([1, 2, 3]))
df.insert(
    len(df.columns), 'new col 3', pd.Series([1., 2, 3]))
print('df with columns added:', df, '\ndtypes:', df.dtypes, sep='\n')
Run Code Online (Sandbox Code Playgroud)

输出

df to start with:
   a  b
0  1  2
1  3  4

dtypes:
a    int64
b    int64
dtype: object


df with columns added:
   a  b  new col 1  new col 2  new col 3
0  1  2  [1, 2, 3]          1        1.0
1  3  4          a          2        2.0

dtypes:
a              int64
b              int64
new col 1     object
new col 2      int64
new col 3    float64
dtype: object
Run Code Online (Sandbox Code Playgroud)