Deepcopy pandas DataFrame 包含 python 对象（例如列表）

Question

Deepcopy pandas DataFrame 包含 python 对象（例如列表）

Cla*_*lay 3 python memory-management python-3.x pandas

需要帮助理解变量赋值、指针……

以下是可重现的。

import pandas as pd

df = pd.DataFrame({
    'listData': [
        ['c', 'f', 'd', 'a', 'e', 'b'], 
        [5, 2, 1, 4, 3]
    ]})

df['listDataSort'] = df['listData']

Run Code Online (Sandbox Code Playgroud)

给出：

             listData        listDataSort
0  [c, f, d, a, e, b]  [c, f, d, a, e, b]
1     [5, 2, 1, 4, 3]     [5, 2, 1, 4, 3]

Run Code Online (Sandbox Code Playgroud)

如果我只想对列中的列表进行排序listDataSort，我可以尝试：

df['listDataSort'].apply(lambda l: l.sort())
df

Run Code Online (Sandbox Code Playgroud)

但是，这会就地对两列中的列表进行排序。

             listData        listDataSort
0  [a, b, c, d, e, f]  [a, b, c, d, e, f]
1     [1, 2, 3, 4, 5]     [1, 2, 3, 4, 5]

Run Code Online (Sandbox Code Playgroud)

我可以通过执行以下操作来解决此问题：

df = pd.DataFrame({
    'listData': [
        ['c', 'f', 'd', 'a', 'e', 'b'], 
        [5, 2, 1, 4, 3]
    ]})

df['listDataSort'] = df['listData'].apply(sorted)

Run Code Online (Sandbox Code Playgroud)

给予：

             listData        listDataSort
0  [c, f, d, a, e, b]  [a, b, c, d, e, f]
1     [5, 2, 1, 4, 3]     [1, 2, 3, 4, 5]

Run Code Online (Sandbox Code Playgroud)

将 df 分配给不同的变量，例如 df2 仍然会将所有内容更改回原始源列表。此外，如何基于现有数据框创建新数据框，以便可以对新数据框进行更改，而无需对现有数据框进行相同的更改？

df = pd.DataFrame({
    'listData': [
        ['c', 'f', 'd', 'a', 'e', 'b'], 
        [5, 2, 1, 4, 3]
    ]})

df2 = df
print('\ndf\n', df)
print('\ndf2\n', df2)

df2['listDataSort'] = df2['listData']
print('\ndf\n', df)
print('\ndf2\n', df2)

df2['listDataSort'].apply(lambda l: l.sort())
print('\ndf\n', df)
print('\ndf2\n', df2)

Run Code Online (Sandbox Code Playgroud)

印刷：

df
             listData
0  [c, f, d, a, e, b]
1     [5, 2, 1, 4, 3]

df2
             listData
0  [c, f, d, a, e, b]
1     [5, 2, 1, 4, 3]

df
             listData        listDataSort
0  [c, f, d, a, e, b]  [c, f, d, a, e, b]
1     [5, 2, 1, 4, 3]     [5, 2, 1, 4, 3]

df2
             listData        listDataSort
0  [c, f, d, a, e, b]  [c, f, d, a, e, b]
1     [5, 2, 1, 4, 3]     [5, 2, 1, 4, 3]

df
             listData        listDataSort
0  [a, b, c, d, e, f]  [a, b, c, d, e, f]
1     [1, 2, 3, 4, 5]     [1, 2, 3, 4, 5]

df2
             listData        listDataSort
0  [a, b, c, d, e, f]  [a, b, c, d, e, f]
1     [1, 2, 3, 4, 5]     [1, 2, 3, 4, 5]

Run Code Online (Sandbox Code Playgroud)

还：

df = pd.DataFrame({
    'listData': [
        ['c', 'f', 'd', 'a', 'e', 'b'], 
        [5, 2, 1, 4, 3]
    ]})
print('\ndf\n', df)

df3 = df
df3['listDataSort'] = df3['listData'].apply(sorted)
print('\ndf\n', df)
print('\ndf3\n', df3)

Run Code Online (Sandbox Code Playgroud)

印刷：

df
             listData
0  [c, f, d, a, e, b]
1     [5, 2, 1, 4, 3]

df
             listData        listDataSort
0  [c, f, d, a, e, b]  [a, b, c, d, e, f]
1     [5, 2, 1, 4, 3]     [1, 2, 3, 4, 5]

df3
             listData        listDataSort
0  [c, f, d, a, e, b]  [a, b, c, d, e, f]
1     [5, 2, 1, 4, 3]     [1, 2, 3, 4, 5]

Run Code Online (Sandbox Code Playgroud)

Answer 1

cs9*_*s95 5

当你跑步时

df['listDataSort'] = df['listData']

Run Code Online (Sandbox Code Playgroud)

您所做的就是将列表的引用复制到新列。这意味着仅执行浅复制，并且两列引用相同的列表。因此，对一列的任何更改都可能会影响另一列。

您可以使用列表理解来sorted返回数据的副本。这对您来说应该是最简单的选择。

df['listDataSort'] = [sorted(x) for x in df['listDataSort']]
df

             listData        listDataSort
0  [c, f, d, a, e, b]  [a, b, c, d, e, f]
1     [5, 2, 1, 4, 3]     [1, 2, 3, 4, 5]

Run Code Online (Sandbox Code Playgroud)

现在，当涉及到复制整个 DataFrame 的问题时，事情就有点复杂了。我会推荐deepcopy：

import copy
df2 = df.apply(copy.deepcopy)

Run Code Online (Sandbox Code Playgroud)

来自OP：`df['listDataSort'] = df['listData'].apply(sorted)`几乎与我对列的解决方案相同，不确定哪个更快，也许使用`numpy.sort`会是还更快。感谢您向我指出“深层复制”。 (2认同)

归档时间：	6 年，6 月前
查看次数：	1315 次
最近记录：	6 年，5 月前