熊猫:了解操作何时影响原始数据帧

Question

熊猫:了解操作何时影响原始数据帧

ejo*_*lly 37 python views pandas chained-assignment

我喜欢熊猫,并且已经使用它多年并且非常自信我能够很好地处理如何对数据帧进行子集并适当地处理视图与副本(尽管我使用了大量的断言来确定).我也知道有很多关于SettingWithCopyWarning的问题,例如如何处理Pandas中的SettingWithCopyWarning？以及一些最新的指南,当它发生时缠绕你的头,例如在熊猫中理解SettingWithCopyWarning.

但是我也知道具体的事情,例如这个答案的引用不再出现在最近的文档(0.22.0)中,并且许多事情已经被多年来弃用(导致一些不合适的旧的SO答案),并且事情正在继续改变.

最近,在教导大熊猫完成新手的基本常规Python知识,例如避免链式索引(和使用.iloc/ .loc)之后,我仍然很难提供一般的经验法则来了解何时注意SettingWithCopyWarning(例如何时重要)忽略它是安全的).

我个人发现根据一些规则(例如切片或布尔运算)对数据帧进行子集化的特定模式,然后修改该子集,与原始数据帧无关,是比文档建议的更常见的操作.在这种情况下,我们希望修改副本而不是原始副本,并且警告对新手来说是混乱/可怕的.

我知道提前查看视图与副本的关系
并不容易,例如Pandas用来生成视图与副本的规则是什么？
在Pandas中检查数据框是复制还是查看

因此,我正在寻找一个更普遍(初学者友好)问题的答案:何时对子集化数据帧执行操作会影响创建它的原始数据帧,以及它们何时独立？.

我已经在下面创建了一些我认为合理的案例,但我不确定是否存在"陷阱"我是否缺失或是否有更简单的方法来思考/检查这一点.我希望有人可以证实我对以下用例的直觉是正确的,因为它与我上面的问题有关.

import pandas as pd
df1 = pd.DataFrame({'A':[2,4,6,8,10],'B':[1,3,5,7,9],'C':[10,20,30,40,50]})

Run Code Online (Sandbox Code Playgroud)

1)警告:无
原始更改:否

# df1 will be unaffected because we use .copy() method explicitly 
df2 = df1.copy()
#
# Reference: docs
df2.iloc[0,1] = 100

Run Code Online (Sandbox Code Playgroud)

2)警告:是(我真的不明白为什么)
原来改变了:没有

# df1 will be unaffected because .query() always returns a copy
#
# Reference:
# https://stackoverflow.com/a/23296545/8022335
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

Run Code Online (Sandbox Code Playgroud)

3)警告:是
原始更改:否

# df1 will be unaffected because boolean indexing with .loc
# always returns a copy
#
# Reference:
# https://stackoverflow.com/a/17961468/8022335
df2 = df1.loc[df1['A'] < 10,:]
df2.iloc[0,1] = 100

Run Code Online (Sandbox Code Playgroud)

4)警告:无
原始更改:否

# df1 will be unaffected because list indexing with .loc (or .iloc)
# always returns a copy
#
# Reference:
# Same as 4)
df2 = df1.loc[[0,3,4],:]
df2.iloc[0,1] = 100

Run Code Online (Sandbox Code Playgroud)

5)警告:没有
原件改变:是(让新手感到困惑但有意义)

# df1 will be affected because scalar/slice indexing with .iloc/.loc
# always references the original dataframe, but may sometimes 
# provide a view and sometimes provide a copy
#
# Reference: docs
df2 = df1.loc[:10,:]
df2.iloc[0,1] = 100

Run Code Online (Sandbox Code Playgroud)

tl; dr 从原始数据框创建新数据框
时,更改新数据框:当使用.loc/.iloc标量/切片索引创建新数据框时,将更改原始数据框.
会不会改变原有的时候用的.loc布尔索引,.query()或.copy()用于创建新的数据帧

Answer 1

Joh*_*hnE 6

这是熊猫的一个令人困惑甚至令人沮丧的部分，但是在大多数情况下，如果遵循一些简单的工作流程规则，您就不必担心这一点。特别要注意的是，当您有两个数据帧时，这里只有两种一般情况，其中一个是另一个的子集。

在这种情况下，Python的Zen规则“显式优于隐式”是一个很好的指导原则。

情况A：对的更改`df2`不应影响`df1`

当然，这很简单。您需要两个完全独立的数据框，因此只需显式地制作一个副本：

df2 = df1.copy()

Run Code Online (Sandbox Code Playgroud)

在此之后，您所做的任何事情df2只会影响df2而不是影响df1，反之亦然。

情况B：`df2`应同时影响的变化`df1`

在这种情况下，我认为没有一种通用的方法可以解决问题，因为这完全取决于您要执行的操作。但是，有两种标准方法非常简单明了，并且对它们的工作方式不应有任何歧义。

方法1：将df1复制到df2，然后使用df2更新df1

在这种情况下，您基本上可以对上述示例进行一对一转换。这是示例2：

df2 = df1.copy()
df2 = df1.query('A < 10')
df2.iloc[0,1] = 100

df1 = df2.append(df1).reset_index().drop_duplicates(subset='index').drop(columns='index')

Run Code Online (Sandbox Code Playgroud)

不幸的append是，那里的重新合并过孔有点冗长。尽管它具有将整数转换为浮点数的副作用，但是您可以使用以下代码更干净地进行此操作。

df1.update(df2)   # note that this is an inplace operation

Run Code Online (Sandbox Code Playgroud)

方法2：使用遮罩（根本不创建df2）

我认为最好的一般方法不是完全创建df2，而应该是的蒙版df1。不幸的是，由于上面的代码混合了loc，iloc因此无法直接翻译，尽管对于实际使用而言可能不切实际，但对本示例来说还不错。

优点是您可以编写非常简单易读的代码。这是上面示例2的替代版本，其中df2实际上只是的蒙版df1。但是iloc，如果列“ C” == 10，我将更改而不是via 。

df2_mask = df1['A'] < 10
df1.loc[ df2_mask & (df1['C'] == 10), 'B'] = 100

Run Code Online (Sandbox Code Playgroud)

现在，如果您打印df1或df1[df2_mask]看到每个数据帧的第一行，则该列“ B” = 100。显然，这在这里并不是很令人惊讶，但这是遵循“显式优于隐式”的固有优势。

Answer 2

小智 0

我也有同样的疑问，之前搜索过这个答案没有成功。所以现在，我只是证明原始内容没有改变，并在开始删除警告时使用该代码和平：

 import pandas as pd
 pd.options.mode.chained_assignment = None  # default='warn'

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年前
查看次数：	5724 次
最近记录：	7 年，4 月前

熊猫:了解操作何时影响原始数据帧

情况A：对的更改df2不应影响df1

情况B：df2应同时影响的变化df1

情况A：对的更改`df2`不应影响`df1`

情况B：`df2`应同时影响的变化`df1`