pandas:用loc迭代DataFrame索引

use*_*500 8 python indexing pandas

我似乎无法找到.loc行为背后的原因.我知道它是基于标签的,所以如果我遍历Index对象,下面的最小例子应该可行.但事实并非如此.我当然用Google搜索,但我需要一些已经掌握索引的人的其他解释.

import datetime
import pandas as pd

dict_weekday = {1: 'MON', 2: 'TUE', 3: 'WED', 4: 'THU', 5: 'FRI', 6: 'SAT', 7: 'SUN'}
df = pd.DataFrame(pd.date_range(datetime.date(2014, 1, 1), datetime.date(2014, 1, 15), freq='D'),   columns=['Date'])
df['Weekday'] = df['Date'].apply(lambda x: dict_weekday[x.isoweekday()])

for idx in df.index:
    print df.loc[idx, 'Weekday']
Run Code Online (Sandbox Code Playgroud)

unu*_*tbu 10

问题不在于df.loc; df.loc[idx, 'Weekday']刚刚回归系列赛.令人惊讶的行为是由于pd.Series尝试将类似datetime的值转换为Timestamps的方式.

df.loc[0, 'Weekday']
Run Code Online (Sandbox Code Playgroud)

形成系列

pd.Series(np.array([pd.Timestamp('2014-01-01 00:00:00'), 'WED'], dtype=object))
Run Code Online (Sandbox Code Playgroud)

pd.Series(...)被调用时,它会尝试将数据转换为适当的D型.

如果你追踪代码,你会发现它最终到达pandas.core.common._possibly_infer_to_datetimelike中的这些行:

sample = v[:min(3,len(v))]
inferred_type = lib.infer_dtype(sample)
Run Code Online (Sandbox Code Playgroud)

这是检查数据的前几个元素并尝试推断dtype.当其中一个值是pd.Timestamp时,Pandas会检查是否所有数据都可以转换为时间戳.的确,'Wed'可以转换为pd.Timestamp:

In [138]: pd.Timestamp('Wed')
Out[138]: Timestamp('2014-12-17 00:00:00')
Run Code Online (Sandbox Code Playgroud)

这是问题的根源,导致pd.Series返回两个时间戳而不是时间戳和字符串:

In [139]: pd.Series(np.array([pd.Timestamp('2014-01-01 00:00:00'), 'WED'], dtype=object))
Out[139]: 
0   2014-01-01
1   2014-12-17
dtype: datetime64[ns]
Run Code Online (Sandbox Code Playgroud)

因此返回

In [140]: df.loc[0, 'Weekday']
Out[140]: Timestamp('2014-12-17 00:00:00')
Run Code Online (Sandbox Code Playgroud)

而不是'Wed'.


替代方案:df['Weekday']首先选择系列:

有很多解决方法; EdChum表明,向样本添加非日期(整数)值可以防止pd.Series将所有值强制转换为时间戳.

或者,您可以df['Weekdays'] 使用访问.loc:

for idx in df.index:
    print df['Weekday'].loc[idx]
Run Code Online (Sandbox Code Playgroud)

替代方案df.loc[[idx], 'Weekday']:

另一种选择是

for idx in df.index:
    print df.loc[[idx], 'Weekday'].item()
Run Code Online (Sandbox Code Playgroud)

df.loc[[idx], 'Weekday'] 首先选择DataFrame df.loc[[idx]].例如,当idx等于时0,

In [10]: df.loc[[0]]
Out[10]: 
        Date Weekday
0 2014-01-01     WED
Run Code Online (Sandbox Code Playgroud)

df.loc[0]返回系列:

In [11]: df.loc[0]
Out[11]: 
Date      2014-01-01
Weekday   2014-12-17
Name: 0, dtype: datetime64[ns]
Run Code Online (Sandbox Code Playgroud)

Series尝试将值转换为单个有用的dtype.DataFrame可以为每列提供不同的dtype.因此,Date列中的时间戳不会影响列中值的dtype Weekday.

因此,使用返回DataFrame的索引选择器可以避免问题.


替代方案:使用整数作为工作日

另一种方法是将isoweekday整数存储在Weekday,并在打印时仅在结尾处转换为字符串:

import datetime
import pandas as pd

dict_weekday = {1: 'MON', 2: 'TUE', 3: 'WED', 4: 'THU', 5: 'FRI', 6: 'SAT', 7: 'SUN'}
df = pd.DataFrame(pd.date_range(datetime.date(2014, 1, 1), datetime.date(2014, 1, 15), freq='D'),   columns=['Date'])
df['Weekday'] = df['Date'].dt.weekday+1   # add 1 for isoweekday

for idx in df.index:
    print dict_weekday[df.loc[idx, 'Weekday']]
Run Code Online (Sandbox Code Playgroud)

替代方案:使用df.ix:

df.loc是一个_LocIndexer,而是df.ix一个_IXIndexer.他们有不同的__getitem__方法.如果您单步执行代码(例如,使用pdb),您将找到该df.ix调用df.getvalue:

def __getitem__(self, key):
    if type(key) is tuple:
        try:
            values = self.obj.get_value(*key)
Run Code Online (Sandbox Code Playgroud)

并且DataFrame方法df.get_value成功返回'WED':

In [14]: df.get_value(0, 'Weekday')
Out[14]: 'WED'
Run Code Online (Sandbox Code Playgroud)

这就是为什么df.ix另一种替代方案在这里有效.