Pandas：扁平化树结构

Question

Pandas：扁平化树结构

我有一个类别树，如下所示。

import pandas as pd

asset_tree = [
    {'id': 1, 'name': 'Linear Asset', 'parent_id': -1},
    {'id': 2, 'name': 'Lateral', 'parent_id': 1},
    {'id': 3, 'name': 'Main', 'parent_id': 1},
    {'id': 4, 'name': 'Point Asset', 'parent_id': -1},
    {'id': 5, 'name': 'Fountain', 'parent_id': 4},
    {'id': 6, 'name': 'Hydrant', 'parent_id': 4}
]
tree = pd.DataFrame(asset_tree)
print(tree)

Run Code Online (Sandbox Code Playgroud)

这给了我一个数据框，如下所示：

   id          name  parent_id
0   1  Linear Asset         -1
1   2       Lateral          1
2   3          Main          1
3   4   Point Asset         -1
4   5      Fountain          4
5   6       Hydrant          4

Run Code Online (Sandbox Code Playgroud)

树中最高的节点的parent_id等于-1，因此树可以图形化表示如下：

Linear Asset
   | - Lateral
   | - Main
Point Asset
   | - Fountain
   | - Hydrant

Run Code Online (Sandbox Code Playgroud)

我需要生成以下数据框。

   id          name  parent_id  flat_name
0   1  Linear Asset         -1  Linear Asset
1   2       Lateral          1  Linear Asset : Lateral
2   3          Main          1  Linear Asset : Main
3   4   Point Asset         -1  Point Asset
4   5      Fountain          4  Point Asset : Fountain
5   6       Hydrant          4  Point Asset : Hydrant

Run Code Online (Sandbox Code Playgroud)

该树是动态生成的，可以有任意数量的级别，因此以下树

asset_tree = [
    {'id': 1, 'name': 'Linear Asset', 'parent_id': -1},
    {'id': 2, 'name': 'Lateral', 'parent_id': 1},
    {'id': 3, 'name': 'Main', 'parent_id': 1},
    {'id': 4, 'name': 'Point Asset', 'parent_id': -1},
    {'id': 5, 'name': 'Fountain', 'parent_id': 4},
    {'id': 6, 'name': 'Hydrant', 'parent_id': 4},
    {'id': 7, 'name': 'Steel', 'parent_id': 2},
    {'id': 8, 'name': 'Plastic', 'parent_id': 2},
    {'id': 9, 'name': 'Steel', 'parent_id': 3},
    {'id': 10, 'name': 'Plastic', 'parent_id': 3}
]

Run Code Online (Sandbox Code Playgroud)

应该会产生以下结果：

   id          name  parent_id  flat_name
0   1  Linear Asset         -1  Linear Asset
1   2       Lateral          1  Linear Asset : Lateral
2   3          Main          1  Linear Asset : Main
3   4   Point Asset         -1  Point Asset
4   5      Fountain          4  Point Asset : Fountain
5   6       Hydrant          4  Point Asset : Hydrant
6   7         Steel          2  Linear Asset : Lateral : Steel
7   8       Plastic          2  Linear Asset : Lateral : Plastic
8   9         Steel          3  Linear Asset : Main : Steel
9  10       Plastic          3  Linear Asset : Main : Plastic

Run Code Online (Sandbox Code Playgroud)

Answer 1

Tom*_*Tom 5

apply这是完成此任务的递归函数。该函数接受id并返回其在树中的“路径”：

def flatname(ID):
    row = df[df['id'] == ID].squeeze()
    if row['parent_id'] == -1:
        return row['name']
    else:
        return flatname(row['parent_id']) + ' : ' + row['name']

Run Code Online (Sandbox Code Playgroud)

要使用，请致电：

df['flat_name'] = df['id'].apply(flatname)

Run Code Online (Sandbox Code Playgroud)

在你的第二个例子中使用后df：

   id          name  parent_id                         flat_name
0   1  Linear Asset         -1                      Linear Asset
1   2       Lateral          1            Linear Asset : Lateral
2   3          Main          1               Linear Asset : Main
3   4   Point Asset         -1                       Point Asset
4   5      Fountain          4            Point Asset : Fountain
5   6       Hydrant          4             Point Asset : Hydrant
6   7         Steel          2    Linear Asset : Lateral : Steel
7   8       Plastic          2  Linear Asset : Lateral : Plastic
8   9         Steel          3       Linear Asset : Main : Steel
9  10       Plastic          3     Linear Asset : Main : Plastic

Run Code Online (Sandbox Code Playgroud)

OP 指出，上述函数显式引用在df函数范围之外定义的变量。因此，如果您将 DataFrame 称为不同的名称，或者您想在许多 DataFrame 上调用它，这可能会导致问题。一种解决方法是将apply函数转变为更多的私人助手，并创建一个调用它的外部（更用户友好）函数：

def _flatname_recurse(ID, df):
    row = df[df['id'] == ID].squeeze()
    if row['parent_id'] == -1:
        return row['name']
    else:
        return _flatname_recurse(row['parent_id'], df=df) + ' : ' + row['name']

# asset_df to specify we are looking for a specific kind of df
def flatnames(asset_df):
    return asset_df['id'].apply(_flatname_recurse, df=asset_df)

Run Code Online (Sandbox Code Playgroud)

然后调用：

df['flat_name'] = flatnames(df)

Run Code Online (Sandbox Code Playgroud)

另请注意，我曾经用于row = df.iloc[ID - 1, :]标识行，在本例中有效，但依赖于比id索引大 1 的情况。这种方法比较通用。

归档时间：	4 年，9 月前
查看次数：	881 次
最近记录：	4 年，9 月前