如何在 pandas 多索引数据框中仅选择索引列?

Cur*_*ner 5 multi-index dataframe python-3.x pandas

好的,所以我有一个具有 2 列索引的 DataFrame,我试图从该 DataFrame 中过滤行,并仅将原始数据帧的索引列保留到新的过滤后的 DataFrame 中。

我通过以下方式从 CSV 文件创建了数据框:在此处查找 CSV 文件

census_df = pd.read_csv("census.csv", index_col = ["STNAME", "CTYNAME"])
census_df.sort_index(ascending = True)
Run Code Online (Sandbox Code Playgroud)

然后,我对 DataFrame 应用了一些过滤,效果非常好,并且我得到了所需的行。我使用的代码如下所示:

def my_answer():

    mask1 = census_df["REGION"].between(1, 2)
    mask2 = census_df.index.get_level_values("CTYNAME").str.startswith("Washington")
    mask3 = (census_df["POPESTIMATE2015"] > census_df["POPESTIMATE2014"])
    new_df = census_df[mask1 & mask2 & mask3]
    return pd.DataFrame(new_df.iloc[:, -1])

my_answer()
Run Code Online (Sandbox Code Playgroud)

问题是这样的:

上面的代码返回一个数据帧,其中除了 2 个索引列之外,还包含索引和第一列。我想要的只是两个索引列。因此,最终答案应该返回一个数据框,其中包含“STNAME”和“CTYNAME”,其中有 5 行。

jez*_*ael 0

您可以转换indexDataFrame

def my_answer():

    mask1 = census_df["REGION"].between(1, 2)
    mask2 = census_df.index.get_level_values("CTYNAME").str.startswith("Washington")
    mask3 = (census_df["POPESTIMATE2015"] > census_df["POPESTIMATE2014"])
    new_df = census_df[mask1 & mask2 & mask3]
    return pd.DataFrame(new_df.index.tolist(), columns=['STNAME','CTYNAME'])

print (my_answer())

         STNAME            CTYNAME
0          Iowa  Washington County
1     Minnesota  Washington County
2  Pennsylvania  Washington County
3  Rhode Island  Washington County
4     Wisconsin  Washington County
Run Code Online (Sandbox Code Playgroud)

如果想要根据MultiIndex需要输出MultiIndex.remove_unused_levels,但它工作在pandas 0.20.0+

def my_answer():

    mask1 = census_df["REGION"].between(1, 2)
    mask2 = census_df.index.get_level_values("CTYNAME").str.startswith("Washington")
    mask3 = (census_df["POPESTIMATE2015"] > census_df["POPESTIMATE2014"])
    new_df = census_df[mask1 & mask2 & mask3]
    return new_df.index.remove_unused_levels()

print (my_answer())

MultiIndex(levels=[['Iowa', 'Minnesota', 'Pennsylvania', 'Rhode Island', 'Wisconsin'], 
                   ['Washington County']],
           labels=[[0, 1, 2, 3, 4], [0, 0, 0, 0, 0]],
           names=['STNAME', 'CTYNAME'])
Run Code Online (Sandbox Code Playgroud)