根据Pandas中的字符串列表过滤掉行

geo*_*ing 9 python filter pandas

我有一个大的时间序列数据框(称为df),前5个记录如下所示:

df

         stn     years_of_data  total_minutes avg_daily TOA_daily   K_daily
date                        
1900-01-14  AlberniElementary      4    5745    34.100  114.600 0.298
1900-01-14  AlberniWeather         6    7129    29.500  114.600 0.257
1900-01-14  Arbutus                8    11174   30.500  114.600 0.266
1900-01-14  Arrowview              7    10080   27.600  114.600 0.241
1900-01-14  Bayside                7    9745    33.800  114.600 0.295
Run Code Online (Sandbox Code Playgroud)

目标:

我试图删除列表中任何字符串出现在'stn'列中的行.所以,我基本上试图过滤这个数据集,不包括包含以下列表中任何字符串的行.

尝试:

remove_list = ['Arbutus','Bayside']

cleaned = df[df['stn'].str.contains('remove_list')]
Run Code Online (Sandbox Code Playgroud)

返回:

出[78]:

stn years_of_data   total_minutes   avg_daily   TOA_daily   K_daily
date    
Run Code Online (Sandbox Code Playgroud)

没有!

我尝试了一些引号,括号,甚至是lambda函数的组合; 虽然我相当新,所以可能没有正确使用语法..

EdC*_*ica 21

使用isin:

cleaned = df[~df['stn'].isin(remove_list)]

In [7]:

remove_list = ['Arbutus','Bayside']
df[~df['stn'].isin(remove_list)]
Out[7]:
                          stn  years_of_data  total_minutes  avg_daily  \
date                                                                     
1900-01-14  AlberniElementary              4           5745       34.1   
1900-01-14     AlberniWeather              6           7129       29.5   
1900-01-14          Arrowview              7          10080       27.6   

            TOA_daily  K_daily  
date                            
1900-01-14      114.6    0.298  
1900-01-14      114.6    0.257  
1900-01-14      114.6    0.241  
Run Code Online (Sandbox Code Playgroud)


raj*_*jan 10

有一个类似的问题,找到了这个旧线程,我认为还有其他方法可以获得相同的结果。我对@EdChum 针对我的特定应用程序的解决方案的问题是,我没有可以完全匹配的列表。如果您有同样的问题,.isin则不适用于该应用程序。

相反,您还可以尝试一些选项,包括 numpy.where:

  removelist = ['ayside','rrowview']
  df['flagCol'] = numpy.where(df.stn.str.contains('|'.join(remove_list)),1,0)
Run Code Online (Sandbox Code Playgroud)

请注意,此解决方案实际上并没有删除匹配的行,只是标记它们。您可以根据需要复制/切片/删除。

此解决方案在您不知道的情况下很有用,例如,站名是否大写并且不想事先通过标准化文本。numpy.where通常也很快,可能与.isin.