如何将Dataframe单元格中的列表分解为单独的行

Question

如何将Dataframe单元格中的列表分解为单独的行

Spi*_*uce 76 python dataframe pandas

我希望将包含列表的pandas单元格转换为每个值的行.

所以,拿这个:

如果我想解压并堆叠'nearest_neighbors"列中的值,以便每个值都是每个'对手'索引中的一行,我最好怎么做呢？是否有适合像这样的操作的pandas方法这个？我只是不知道.

先谢谢你,伙计们.

Answer 1

Ale*_*der 49

在下面的代码中,我首先重置索引以使行迭代更容易.

我创建了一个列表列表,其中外部列表的每个元素都是目标DataFrame的一行,内部列表的每个元素都是其中一列.此嵌套列表最终将连接在一起以创建所需的DataFrame.

我使用lambda的共同作用下与列表进行迭代,以创建一排的每个元素nearest_neighbors有关配对name和opponent.

最后,我从此列表中创建一个新的DataFrame(使用原始列名并将索引设置回name和opponent).

df = (pd.DataFrame({'name': ['A.J. Price'] * 3, 
                    'opponent': ['76ers', 'blazers', 'bobcats'], 
                    'nearest_neighbors': [['Zach LaVine', 'Jeremy Lin', 'Nate Robinson', 'Isaia']] * 3})
      .set_index(['name', 'opponent']))

>>> df
                                                    nearest_neighbors
name       opponent                                                  
A.J. Price 76ers     [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
           blazers   [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
           bobcats   [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]

df.reset_index(inplace=True)
rows = []
_ = df.apply(lambda row: [rows.append([row['name'], row['opponent'], nn]) 
                         for nn in row.nearest_neighbors], axis=1)
df_new = pd.DataFrame(rows, columns=df.columns).set_index(['name', 'opponent'])

>>> df_new
                    nearest_neighbors
name       opponent                  
A.J. Price 76ers          Zach LaVine
           76ers           Jeremy Lin
           76ers        Nate Robinson
           76ers                Isaia
           blazers        Zach LaVine
           blazers         Jeremy Lin
           blazers      Nate Robinson
           blazers              Isaia
           bobcats        Zach LaVine
           bobcats         Jeremy Lin
           bobcats      Nate Robinson
           bobcats              Isaia

Run Code Online (Sandbox Code Playgroud)

编辑2017年6月

另一种方法如下:

>>> (pd.melt(df.nearest_neighbors.apply(pd.Series).reset_index(), 
             id_vars=['name', 'opponent'],
             value_name='nearest_neighbors')
     .set_index(['name', 'opponent'])
     .drop('variable', axis=1)
     .dropna()
     .sort_index()
     )

Run Code Online (Sandbox Code Playgroud)

爆炸式列表式列[已在pandas 0.25中得到显着简化]（https://pandas.pydata.org/pandas-docs/version/0.25/user_guide/reshaping.html#exploding-a-list-like-column）加上`explode（）`方法。我添加了[答案]（/sf/answers/3997408831/），并带有使用与此处相同的df设置的示例。 (2认同)

Answer 2

Zer*_*ero 33

使用apply(pd.Series)和stack,然后reset_index和to_frame

In [1803]: (df.nearest_neighbors.apply(pd.Series)
              .stack()
              .reset_index(level=2, drop=True)
              .to_frame('nearest_neighbors'))
Out[1803]:
                    nearest_neighbors
name       opponent
A.J. Price 76ers          Zach LaVine
           76ers           Jeremy Lin
           76ers        Nate Robinson
           76ers                Isaia
           blazers        Zach LaVine
           blazers         Jeremy Lin
           blazers      Nate Robinson
           blazers              Isaia
           bobcats        Zach LaVine
           bobcats         Jeremy Lin
           bobcats      Nate Robinson
           bobcats              Isaia

Run Code Online (Sandbox Code Playgroud)

细节

In [1804]: df
Out[1804]:
                                                   nearest_neighbors
name       opponent
A.J. Price 76ers     [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
           blazers   [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
           bobcats   [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]

Run Code Online (Sandbox Code Playgroud)

喜欢您解决方案的优雅！您是否曾将其与其他方法进行基准测试？ (2认同)
`df.nearest_neighbors.apply(pd.Series)` 的结果让我非常吃惊； (2认同)

Answer 3

max*_*moo 15

我认为这是一个非常好的问题,在你会使用的Hive中EXPLODE,我认为有一种情况可以说Pandas默认情况下应该包含这个功能.我可能会使用嵌套的生成器理解来爆炸列表列,如下所示:

pd.DataFrame({
    "name": i[0],
    "opponent": i[1],
    "nearest_neighbor": neighbour
    }
    for i, row in df.iterrows() for neighbour in row.nearest_neighbors
    ).set_index(["name", "opponent"])

Run Code Online (Sandbox Code Playgroud)

@SummerEla大声笑这是一个非常老的答案，我已经更新以显示我现在将如何做 (2认同)

Answer 4

Ole*_*leg 11

到目前为止,我发现的最快的方法是扩展DataFrame .iloc并分配平坦的目标列.

给出通常的输入(复制了一下):

df = (pd.DataFrame({'name': ['A.J. Price'] * 3, 
                    'opponent': ['76ers', 'blazers', 'bobcats'], 
                    'nearest_neighbors': [['Zach LaVine', 'Jeremy Lin', 'Nate Robinson', 'Isaia']] * 3})
      .set_index(['name', 'opponent']))
df = pd.concat([df]*10)

df
Out[3]: 
                                                   nearest_neighbors
name       opponent                                                 
A.J. Price 76ers     [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
           blazers   [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
           bobcats   [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
           76ers     [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
           blazers   [Zach LaVine, Jeremy Lin, Nate Robinson, Isaia]
...

Run Code Online (Sandbox Code Playgroud)

鉴于以下建议的替代方案:

col_target = 'nearest_neighbors'

def extend_iloc():
    # Flatten columns of lists
    col_flat = [item for sublist in df[col_target] for item in sublist] 
    # Row numbers to repeat 
    lens = df[col_target].apply(len)
    vals = range(df.shape[0])
    ilocations = np.repeat(vals, lens)
    # Replicate rows and add flattened column of lists
    cols = [i for i,c in enumerate(df.columns) if c != col_target]
    new_df = df.iloc[ilocations, cols].copy()
    new_df[col_target] = col_flat
    return new_df

def melt():
    return (pd.melt(df[col_target].apply(pd.Series).reset_index(), 
             id_vars=['name', 'opponent'],
             value_name=col_target)
            .set_index(['name', 'opponent'])
            .drop('variable', axis=1)
            .dropna()
            .sort_index())

def stack_unstack():
    return (df[col_target].apply(pd.Series)
            .stack()
            .reset_index(level=2, drop=True)
            .to_frame(col_target))

Run Code Online (Sandbox Code Playgroud)

我发现这extend_iloc()是最快的:

%timeit extend_iloc()
3.11 ms ± 544 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit melt()
22.5 ms ± 1.25 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit stack_unstack()
11.5 ms ± 410 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

Run Code Online (Sandbox Code Playgroud)

谢谢你,这对我很有帮助.我使用了extend_iloc解决方案,发现`cols = [c for df.columns c c if c!= col_target]`应该是:`cols = [i for i,c in enumerate(df.columns)if c!= col_target ]``df.iloc [ilocations,cols] .copy()`错误,如果没有列索引. (2认同)

Answer 5

joe*_*lom 10

通过添加方法，在pandas 0.25中显着简化了爆炸式列表explode()：

df = (pd.DataFrame({'name': ['A.J. Price'] * 3, 
                    'opponent': ['76ers', 'blazers', 'bobcats'], 
                    'nearest_neighbors': [['Zach LaVine', 'Jeremy Lin', 'Nate Robinson', 'Isaia']] * 3})
      .set_index(['name', 'opponent']))

df.explode('nearest_neighbors')

Run Code Online (Sandbox Code Playgroud)

出：

                    nearest_neighbors
name       opponent                  
A.J. Price 76ers          Zach LaVine
           76ers           Jeremy Lin
           76ers        Nate Robinson
           76ers                Isaia
           blazers        Zach LaVine
           blazers         Jeremy Lin
           blazers      Nate Robinson
           blazers              Isaia
           bobcats        Zach LaVine
           bobcats         Jeremy Lin
           bobcats      Nate Robinson
           bobcats              Isaia

Run Code Online (Sandbox Code Playgroud)

请注意，这仅适用于单个列（截至 0.25）。请参阅[此处](/sf/ask/3725325201/?r=SearchResults&s=3|49.3211)和[此处]( /sf/answers/3551187811/）了解更通用的解决方案。 (2认同)

Answer 6

Phi*_*arz 7

适用的更好的替代解决方案(pd.Series):

df = pd.DataFrame({'listcol':[[1,2,3],[4,5,6]]})

# expand df.listcol into its own dataframe
tags = df['listcol'].apply(pd.Series)

# rename each variable is listcol
tags = tags.rename(columns = lambda x : 'listcol_' + str(x))

# join the tags dataframe back to the original dataframe
df = pd.concat([df[:], tags[:]], axis=1)

Run Code Online (Sandbox Code Playgroud)

Answer 7

小智 7

与Hive的EXPLODE功能类似:

import copy

def pandas_explode(df, column_to_explode):
    """
    Similar to Hive's EXPLODE function, take a column with iterable elements, and flatten the iterable to one element 
    per observation in the output table

    :param df: A dataframe to explod
    :type df: pandas.DataFrame
    :param column_to_explode: 
    :type column_to_explode: str
    :return: An exploded data frame
    :rtype: pandas.DataFrame
    """

    # Create a list of new observations
    new_observations = list()

    # Iterate through existing observations
    for row in df.to_dict(orient='records'):

        # Take out the exploding iterable
        explode_values = row[column_to_explode]
        del row[column_to_explode]

        # Create a new observation for every entry in the exploding iterable & add all of the other columns
        for explode_value in explode_values:

            # Deep copy existing observation
            new_observation = copy.deepcopy(row)

            # Add one (newly flattened) value from exploding iterable
            new_observation[column_to_explode] = explode_value

            # Add to the list of new observations
            new_observations.append(new_observation)

    # Create a DataFrame
    return_df = pandas.DataFrame(new_observations)

    # Return
    return return_df

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，4 月前
查看次数：	48906 次
最近记录：	6 年，6 月前