用python中的特定列名过滤pandas数据框

Question

用python中的特定列名过滤pandas数据框

我有一个熊猫数据框和以下列表

mylist = ['nnn', 'mmm', 'yyy']
mydata =
   xxx   yyy zzz nnn ddd mmm
0  0  10      5    5   5  5
1  1   9      2    3   4  4
2  2   8      8    7   9  0

Run Code Online (Sandbox Code Playgroud)

现在，我只想获取其中提到的列mylist并将其另存为csv文件。

即

     yyy  nnn   mmm
0    10     5     5
1    9      3     4
2    8      7     0

Run Code Online (Sandbox Code Playgroud)

我当前的代码如下。

mydata = pd.read_csv( input_file, header=0)

for item in mylist:
    mydata_new = mydata[item]

print(mydata_new)
mydata_new.to_csv(file_name)

Run Code Online (Sandbox Code Playgroud)

在我看来，我的新数据框产生了错误的结果。请帮我！

Answer 1

cs9*_*s95 14

您yyy的其中一个缺少额外的y;-)

使用df.columns.str.contains并使用进行过滤loc。

df.loc[:, df.columns.str.contains('|'.join(mylist))]

   yyyy  nnn  mmm
0    10    5    5
1     9    3    4
2     8    7    0

Run Code Online (Sandbox Code Playgroud)

这应该是您要寻找的结果。随后to_csv调用结果将生成您的CSV文件。

如果您的yyy元素是拼写错误，而您实际上的意思是yyyy，那么只需将列表作为索引器传递就可以了-

df[['nnn', 'mmm', 'yyyy']]

   nnn  mmm  yyyy
0    5    5    10
1    3    4     9
2    7    0     8

Run Code Online (Sandbox Code Playgroud)

如果您需要处理列表中不存在的列名，请尝试使用df.columns.isin-

df.loc[:, df.columns.isin(['nnn', 'mmm', 'yyyy', 'zzzzzz'])]

   yyyy  nnn  mmm
0    10    5    5
1     9    3    4
2     8    7    0

Run Code Online (Sandbox Code Playgroud)

Answer 2

Tai*_*Tai 5

你可以直接放进mylist去[]，pandas 就会为你选择它。

mydata_new = mydata[mylist]

Run Code Online (Sandbox Code Playgroud)

不确定你的是否yyy有错字。

你错的原因是你mydata_new每次在循环中都分配给一个新的系列。

for item in mylist:
    mydata_new = mydata[item]  # <-

Run Code Online (Sandbox Code Playgroud)

因此，它将创建一个系列而不是您想要的整个 df 。

如果列表中的某些名称不在您的数据框中，您可以随时检查，

len(set(mylist) - set(mydata.columns)) > 0

Run Code Online (Sandbox Code Playgroud)

并打印出来

print(set(mylist) - set(mydata.columns))

Run Code Online (Sandbox Code Playgroud)

然后查看是否存在拼写错误或其他意外行为。

归档时间：	8 年，4 月前
查看次数：	14076 次
最近记录：	7 年，1 月前