我和大熊猫打架,现在我已经失去了.我有类似这样的源表:
import pandas as pd
a=pd.Series([123,22,32,453,45,453,56])
b=pd.Series([234,4353,355,453,345,453,56])
df=pd.concat([a, b], axis=1)
df.columns=['First', 'Second']
Run Code Online (Sandbox Code Playgroud)
我想在此数据框中添加新列,其中第一个数字来自"First"列中的值:a)将数字更改为"First"列中的字符串b)从新创建的字符串中提取第一个字符c)b的结果另存为新数据框中的列
我不知道如何将它应用于pandas数据框对象.我很感激能帮助我.
EdC*_*ica 51
铸dtype
山坳来str
,你可以执行向量化切片呼吁str
:
In [29]:
df['new_col'] = df['First'].astype(str).str[0]
df
Out[29]:
First Second new_col
0 123 234 1
1 22 4353 2
2 32 355 3
3 453 453 4
4 45 345 4
5 453 453 4
6 56 56 5
Run Code Online (Sandbox Code Playgroud)
如果你需要,你可以dtype
再次回来调用astype(int)
该列
cs9*_*s95 18
.str.get
这是最简单的指定字符串方法
# Setup
df = pd.DataFrame({'A': ['xyz', 'abc', 'foobar'], 'B': [123, 456, 789]})
df
A B
0 xyz 123
1 abc 456
2 foobar 789
df.dtypes
A object
B int64
dtype: object
Run Code Online (Sandbox Code Playgroud)
对于字符串 (read:)object
类型的列,请使用
df['C'] = df['A'].str[0]
# Similar to,
df['C'] = df['A'].str.get(0)
Run Code Online (Sandbox Code Playgroud)
.str
通过返回 NaN 作为输出来处理 NaN。
对于非数字列,.astype
需要事先进行转换,如@Ed Chum 的回答所示。
# Note that this won't work well if the data has NaNs.
# It'll return lowercase "n"
df['D'] = df['B'].astype(str).str[0]
Run Code Online (Sandbox Code Playgroud)
df
A B C D
0 xyz 123 x 1
1 abc 456 a 4
2 foobar 789 f 7
Run Code Online (Sandbox Code Playgroud)
有足够的证据表明一个简单的列表理解在这里可以很好地工作并且可能更快。
# For string columns
df['C'] = [x[0] for x in df['A']]
# For numeric columns
df['D'] = [str(x)[0] for x in df['B']]
Run Code Online (Sandbox Code Playgroud)
df
A B C D
0 xyz 123 x 1
1 abc 456 a 4
2 foobar 789 f 7
Run Code Online (Sandbox Code Playgroud)
如果您的数据有 NaN,那么您需要在列表推导式中使用if
/适当地处理它else
,
df2 = pd.DataFrame({'A': ['xyz', np.nan, 'foobar'], 'B': [123, 456, np.nan]})
df2
A B
0 xyz 123.0
1 NaN 456.0
2 foobar NaN
# For string columns
df2['C'] = [x[0] if isinstance(x, str) else np.nan for x in df2['A']]
# For numeric columns
df2['D'] = [str(x)[0] if pd.notna(x) else np.nan for x in df2['B']]
A B C D
0 xyz 123.0 x 1
1 NaN 456.0 NaN 4
2 foobar NaN f NaN
Run Code Online (Sandbox Code Playgroud)
让我们对一些更大的数据进行一些时间测试。
df_ = df.copy()
df = pd.concat([df_] * 5000, ignore_index=True)
%timeit df.assign(C=df['A'].str[0])
%timeit df.assign(D=df['B'].astype(str).str[0])
%timeit df.assign(C=[x[0] for x in df['A']])
%timeit df.assign(D=[str(x)[0] for x in df['B']])
Run Code Online (Sandbox Code Playgroud)
12 ms ± 253 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
27.1 ms ± 1.38 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
3.77 ms ± 110 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
7.84 ms ± 145 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
Run Code Online (Sandbox Code Playgroud)
列表推导速度快 4 倍。
归档时间: |
|
查看次数: |
54048 次 |
最近记录: |