Wil*_*ill 2 python string pandas
我正在使用Pandas中的功耗数据集,其中包含邮政编码作为列,但此列的数据类型是原始CSV文件中的整数.我想将此列更改为字符串/对象数据类型,这是我到目前为止所做的:
df = pd.read_csv('...kWh_consumption_by_ZIP.csv')
df.head()
Run Code Online (Sandbox Code Playgroud)
结果数据框头如下所示:
如上所述,当我检查时df.dtypes,我看到ZIP被列为int64数据类型,因此我运行以下代码来覆盖现有系列并将其更改为对象数据类型:
df['ZIP'] = df.ZIP.astype(object)
Run Code Online (Sandbox Code Playgroud)
当我检查df.ZIP系列时,一切看起来都很好(至少,肉眼看起来很好):
但是当我使用len函数检查系列中每行的长度时:
df.ZIP.str.len()
Run Code Online (Sandbox Code Playgroud)
...结果系列只返回每行的NaN(见下面的截图).
有谁知道为什么会发生这种情况?在此先感谢您的帮助.
你有一个整数列,并且对象没有解决你的问题.相反,强加给str你,你应该是好的.
df.ZIP.astype(str).str.len()
Run Code Online (Sandbox Code Playgroud)
出于某种原因,熊猫支持str上存取object列.因为object列可以包含任何对象,并且pandas不做任何假设.如果对象是字符串或任何有效容器,则返回有效结果.否则,NaN.
这是一个例子:
x = [{'a': 1}, 'abcde', None, 123, 45, [1, 2, 3, 4]]
y = pd.Series(x)
y
0 {'a': 1}
1 abcde
2 None
3 123
4 45
5 [1, 2, 3, 4]
dtype: object
y.str.len()
Out[741]:
0 1.0
1 5.0
2 NaN
3 NaN
4 NaN
5 4.0
dtype: float64
Run Code Online (Sandbox Code Playgroud)
对比:
y = pd.Series([1, 2, 3, 4, 5])
y
0 1
1 2
2 3
3 4
4 5
dtype: int64
y.dtype
dtype('int64')
y.str.len()
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-744-acc1c109a4a4> in <module>()
----> 1 y.str.len()
y.astype(object).str.len()
0 NaN
1 NaN
2 NaN
3 NaN
4 NaN
dtype: float64
Run Code Online (Sandbox Code Playgroud)