小编Bra*_*mon的帖子

为什么盲目地使用df.copy()一个坏主意来修复SettingWithCopyWarning

关于可怕的问题,有无数的问题 SettingWithCopyWarning

我已经很好地理解了它是如何产生的.(注意我说好,不好)

当数据df帧通过存储的属性"附加"到另一个数据帧时,就会发生这种情况is_copy.

这是一个例子

df = pd.DataFrame([[1]])

d1 = df[:]

d1.is_copy

<weakref at 0x1115a4188; to 'DataFrame' at 0x1119bb0f0>
Run Code Online (Sandbox Code Playgroud)

我们可以将该属性设置为None

d1 = d1.copy()
Run Code Online (Sandbox Code Playgroud)

我见过像@Jeff这样的开发者,我不记得还有谁,警告这样做.引用SettingWithCopyWarning有目的.

问题
好的,那么什么是一个具体的例子,说明为什么通过分配copy回原始来忽略警告是一个坏主意.

我会定义"坏主意"以澄清.

坏主意
这是一个坏主意来放置代码投入生产,这将导致越来越在星期六晚上说你的代码被打破,需要固定的中间一个电话.

现在如何使用df = df.copy()以绕过SettingWithCopyWarning导致获得那种电话.我想要它拼写出来,因为这是一个混乱的来源,我试图找到清晰度.我想看到爆炸的边缘情况!

python pandas chained-assignment

25
推荐指数
2
解决办法
2975
查看次数

熊猫:子索引数据帧:副本与视图

说我有一个数据帧

import pandas as pd
import numpy as np
foo = pd.DataFrame(np.random.random((10,5)))
Run Code Online (Sandbox Code Playgroud)

我从我的数据子集创建另一个数据帧:

bar = foo.iloc[3:5,1:4]
Run Code Online (Sandbox Code Playgroud)

确实bar持有这些元素的副本foo?有没有办法创建view这些数据呢?如果是这样,如果我尝试修改此视图中的数据会发生什么?Pandas是否提供任何类型的写时复制机制?

python pandas chained-assignment

22
推荐指数
1
解决办法
9416
查看次数

Pandas SettingWithCopyWarning

Python 3.4和Pandas 0.15.0

df是一个数据帧,col1是一列.使用下面的代码,我正在检查值10的存在并用1000替换这些值.

df.col1[df.col1 == 10] = 1000
Run Code Online (Sandbox Code Playgroud)

这是另一个例子.这一次,我正在根据索引更改col2中的值.

df.col2[df.index == 151] = 500
Run Code Online (Sandbox Code Playgroud)

这两个都产生以下警告:

-c:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
Run Code Online (Sandbox Code Playgroud)

最后,

cols = ['col1', 'col2', 'col3']
df[cols] = df[cols].applymap(some_function)
Run Code Online (Sandbox Code Playgroud)

这会产生类似的警告,并附加一条建议:

Try using .loc[row_indexer,col_indexer] = value instead
Run Code Online (Sandbox Code Playgroud)

我不确定我理解警告中指出的讨论.编写这三行代码的更好方法是什么?

请注意,操作有效.

python warnings pandas chained-assignment

22
推荐指数
2
解决办法
4万
查看次数

删除水平下划线

我试图从包含死刑记录信息的几百个JPG中提取文字; JPG由德克萨斯州刑事司法部(TDCJ)主持.以下是删除了个人身份信息的示例代码段.

在此输入图像描述

我已经确定下划线是对正确OCR的阻碍 -如果我进去,截取子片段和手动白化线,通过pytesseract产生的OCR 非常好.但由于强调存在,它非常糟糕.

我怎样才能最好地删除这些水平线?我尝试过的:

标记这个问题,希望有人可以帮助将文档演练的第5步翻译成Python.我已经尝试了一批转换,例如Hugh Line Transform,但是我在图书馆和区域内的黑暗中感觉到我以前没有任何经验.

import cv2

# Inverted grayscale
img = cv2.imread('rsnippet.jpg', cv2.IMREAD_GRAYSCALE)
img = cv2.bitwise_not(img)

# Transform inverted grayscale to binary
th = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_MEAN_C,
                            cv2.THRESH_BINARY, 15, -2)

# An alternative; Not sure if `th` or `th2` is optimal here
th2 = cv2.threshold(img, 170, 255, cv2.THRESH_BINARY)[1]

# Create corresponding structure element for horizontal …
Run Code Online (Sandbox Code Playgroud)

c++ python opencv tesseract cv2

22
推荐指数
2
解决办法
3246
查看次数

容错和容错之间有什么区别?

我正在阅读 Spring Cloud 和 NetFlix API。很多地方,我读到了 Fault Tolerance 和 Fault Resilience 关键词。

请解释区别。

fault spring-cloud spring-cloud-netflix

20
推荐指数
2
解决办法
8536
查看次数

c#中的图像处理库

从哪里可以获得C#.Net中的图像处理库?

c# image-processing

18
推荐指数
2
解决办法
4万
查看次数

熊猫:SettingWithCopyWarning

我想用Pandas DataFrame大于任意数字(在这种情况下NaN为100)的值替换(因为这个值很大,表示实验失败).以前我用它来替换不需要的值:

sve2_all[sve2_all[' Hgtot ng/l'] > 100] = np.nan
Run Code Online (Sandbox Code Playgroud)

但是,我收到以下错误:

-c:3: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_index,col_indexer] = value instead
C:\Users\AppData\Local\Enthought\Canopy32\User\lib\site-packages\pandas\core\indexing.py:346: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_index,col_indexer] = value instead
self.obj[item] = s
Run Code Online (Sandbox Code Playgroud)

这个StackExchange问​​题来看,似乎有时候这个警告可以被忽略,但我不能很好地跟进讨论,以确定这是否适用于我的情况.这个警告基本上让我知道我会覆盖我的一些价值观DataFrame吗?

编辑:据我所知,一切都表现得如此.跟进是我取代非标准价值的方法吗?有没有更好的方法来取代价值观?

python python-2.7 pandas chained-assignment

18
推荐指数
1
解决办法
3万
查看次数

即使在使用.loc之后,Pandas仍然会获得SettingWithCopyWarning

起初,我尝试编写一些看起来像这样的代码:

import numpy as np
import pandas as pd
np.random.seed(2016)
train = pd.DataFrame(np.random.choice([np.nan, 1, 2], size=(10, 3)), 
                     columns=['Age', 'SibSp', 'Parch'])

complete = train.dropna()    
complete['AgeGt15'] = complete['Age'] > 15
Run Code Online (Sandbox Code Playgroud)

获得SettingWithCopyWarning后,我尝试使用.loc:

complete.loc[:, 'AgeGt15'] = complete['Age'] > 15
complete.loc[:, 'WithFamily'] = complete['SibSp'] + complete['Parch'] > 0
Run Code Online (Sandbox Code Playgroud)

但是,我仍然得到同样的警告.是什么赋予了?

python pandas chained-assignment

17
推荐指数
1
解决办法
3901
查看次数

困惑重新:pandas数据帧警告片的副本

我已经查看了一堆与此问题相关的问题和答案,但我仍然发现我在我不期望的地方得到了这个切片警告的副本.此外,它在我之前运行良好的代码中出现,让我想知道某种更新是否可能是罪魁祸首.

例如,这是一组代码,我所做的就是将Excel文件读入一个pandas DataFrame,并减少df[[]]语法中包含的列集.

 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60','MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5','MC_OLD_18>F>5',
               'MC_OLD_M_Child<5','MC_OLD_F_Child<5','MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery','Date to insert','Date of Entery']]
Run Code Online (Sandbox Code Playgroud)

现在,我对此izmir_lim文件所做的任何进一步更改都会引发切片警告的副本.

izmir_lim['Age'] = izmir_lim.Age.fillna(0)
izmir_lim['Age'] = izmir_lim.Age.astype(int)
Run Code Online (Sandbox Code Playgroud)

/Users/samlilienfeld/anaconda/lib/python3.5/site-packages/ipykernel/ main .py:2:SettingWithCopyWarning:尝试在DataFrame的切片副本上设置值.尝试使用.loc [row_indexer,col_indexer] = value

我很困惑因为我认为df[[]]列子集默认返回了一个副本.我发现抑制错误的唯一方法是明确添加df[[]].copy().我本来可以发誓,过去我没有那么做,也没有提出切片错误的副本.

同样,我有一些其他代码在数据帧上运行一个函数,以某种方式过滤它:

def lim(df):
if (geography == "All"):
    df_geo = df
else:
    df_geo = df[df.center_JO == geography]

df_date = df_geo[(df_geo.date_survey >= start_date) & (df_geo.date_survey <= end_date)]

return df_date

df_lim = lim(df)
Run Code Online (Sandbox Code Playgroud)

从这一点开始,我对任何值进行的任何更改都会df_lim引发切片错误的副本.我找到的唯一方法是将函数调用更改为:

df_lim = lim(df).copy()
Run Code Online (Sandbox Code Playgroud)

这对我来说似乎不对.我错过了什么?看起来这些用例应该默认返回副本,我可以发誓上次运行这些脚本时我没有遇到这些错误.
我只需要开始添加.copy()到处吗?似乎应该有一个更清洁的方法来做到这一点.任何见解或帮助都非常感谢.

python pandas chained-assignment

17
推荐指数
1
解决办法
9627
查看次数

Python随机生成字符串的IP地址

在Python中,如果我想以IP地址的形式生成随机字符串,该怎么办?

例如:"10.0.1.1","10.0.3.14","172.23.35.1"等.

有人可以给我一些帮助吗?

python ip-address

16
推荐指数
6
解决办法
2万
查看次数