如何在熊猫中迭代数据帧时保留数据类型?

use*_*051 3 python iteration dataframe pandas

如果我直接打印出一个数据框,我将获得具有正确数据类型的正确输出。但是,当我尝试迭代相同的数据框时,数据类型正在更改。

这是我的程序:

import pandas as pd

F = 9.37556366342
p = 0.000101673198518
df_between = 2
df_within = 471
df_total = 473

summary_stats_vals = [(F,p,df_between,df_within,df_total)]
labels = ['F-statistics', 'p-value', 'df-between', 'df-within', 'df-total']
df = pd.DataFrame.from_records(summary_stats_vals,columns=labels)

print(df)
print()

#Iterating the dataframe
for index, row in df.iterrows():
    df_row = list()
    df_row.append(index)
    for col in df.columns:
        df_row.append(row[col])
    print(row)
Run Code Online (Sandbox Code Playgroud)

从下面的屏幕快照中可以看到,迭代时未保留df_between,df_within和df_total的数据类型。它们从int变为float数据类型。在迭代数据帧时可以保留数据类型的方法是什么?

在此处输入图片说明

wwi*_*wii 6

文档

因为iterrows为每一行返回一个Series,所以它不会在各行中保留dtype(dtypes在DataFrame的各列之间都保留)。

您可以为每行使用DataFrame.itertuples()并获取namedtuple

>>> for r in df.itertuples(index=False):
...     print(r)

Pandas(_0=9.3755636634199995, _1=0.000101673198518, _2=2, _3=471, _4=473)
>>> for r in df.itertuples(index=False):
...     print(r._3)

471
Run Code Online (Sandbox Code Playgroud)

将列名更改为有效的Python标识符可能更有意义:

...
labels = ['F_statistics', 'p_value', 'df_between', 'df_within', 'df_total']
...

>>> for r in df.itertuples(index=False, name='Stuff'):
...     print(r)

Stuff(F_statistics=9.3755636634199995, p_value=0.000101673198518, df_between=2, df_within=471, df_total=473)
>>>
>>> for r in df.itertuples(index=False, name='Stuff'):
...     print(r.df_total)

473
>>> 
Run Code Online (Sandbox Code Playgroud)

我没有在文档中找到明确的声明Series数据类型是同构的,但是可以推断出它类似于 Numpy ndarray,并且构造函数具有dtype参数,该参数适用于Series中的所有值:

具有轴标签(包括时间序列)的一维ndarray。

看起来即使Series中只有一个值是浮点数,系列dtype也将是浮点数:

>>> s = pd.Series([1,2,3,4.1], index=['a','b','c','d'])
>>> s
a    1.0
b    2.0
c    3.0
d    4.1
dtype: float64
>>> 
Run Code Online (Sandbox Code Playgroud)