用熊猫中的NaN替换空白值(空格)

Question

用熊猫中的NaN替换空白值(空格)

我想在Pandas数据帧中找到包含空格(任意数量)的所有值,并用NaN替换这些值.

有什么想法可以改进吗？

基本上我想转此:

                   A    B    C
2000-01-01 -0.532681  foo    0
2000-01-02  1.490752  bar    1
2000-01-03 -1.387326  foo    2
2000-01-04  0.814772  baz     
2000-01-05 -0.222552         4
2000-01-06 -1.176781  qux

Run Code Online (Sandbox Code Playgroud)

进入:

                   A     B     C
2000-01-01 -0.532681   foo     0
2000-01-02  1.490752   bar     1
2000-01-03 -1.387326   foo     2
2000-01-04  0.814772   baz   NaN
2000-01-05 -0.222552   NaN     4
2000-01-06 -1.176781   qux   NaN

Run Code Online (Sandbox Code Playgroud)

我已经设法用下面的代码来做,但是男人是丑陋的.它不是Pythonic,我敢肯定它也不是最有效的熊猫用途.我循环遍历每一列并对通过应用对每个值进行正则表达式搜索的函数生成的列掩码进行布尔替换,并在空格上进行匹配.

for i in df.columns:
    df[i][df[i].apply(lambda i: True if re.search('^\s*$', str(i)) else False)]=None

Run Code Online (Sandbox Code Playgroud)

只需迭代可能包含空字符串的字段,就可以对其进行优化:

if df[i].dtype == np.dtype('object')

Run Code Online (Sandbox Code Playgroud)

但这并没有太大的改善

最后,这段代码将目标字符串设置为None,它与Pandas的函数一样工作fillna(),但如果我能NaN直接插入一个而不是完整性,那么它对于完整性会很好None.

Answer 1

pat*_*rry 162

我认为df.replace()做的工作:

df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'foo', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', '  '],         
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

# replace field that's entirely space (or empty) with NaN
print(df.replace(r'^\s*$', np.nan, regex=True))

Run Code Online (Sandbox Code Playgroud)

生产:

                   A    B   C
2000-01-01 -0.532681  foo   0
2000-01-02  1.490752  bar   1
2000-01-03 -1.387326  foo   2
2000-01-04  0.814772  baz NaN
2000-01-05 -0.222552  NaN   4
2000-01-06 -1.176781  qux NaN

Run Code Online (Sandbox Code Playgroud)

正如Temak指出的那样,请使用df.replace(r'^\s+$', np.nan, regex=True)以防有效数据包含空格.

**注意**:如果你不想在中间容纳空间的元素与南更换使用`df.replace(R"^\S + $",np.nan,正则表达式= TRUE)` (30认同)
我尝试使用它,但发现r'^\s*$'应该是要使用的表达式.没有^和$它将匹配任何带有两个连续空格的字符串.还将+更改为*以在要转换为NaN的事物列表中包含空字符串"" (6认同)
2年后,我已经改变了接受的答案,现在大熊猫支持了它.谢谢! (2认同)
我正在我的代码中尝试您的解决方案，但没有效果。我正在尝试“energy[”Energy Supply”].replace(to_replace = “...”, value = np.NaN)”。想要将字符串“...”更改为 NaN 值，但它什么也不做并返回相同的数据帧。 (2认同)

Answer 2

Phi*_*arz 38

如果要替换空字符串和仅包含空格的记录,则正确的答案是!:

df = df.replace(r'^\s*$', np.nan, regex=True)

Run Code Online (Sandbox Code Playgroud)

接受的答案

df.replace(r'\s+', np.nan, regex=True)

Run Code Online (Sandbox Code Playgroud)

不替换空字符串!,您可以尝试使用稍微更新的给定示例:

df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'fo o', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', ''],         
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

Run Code Online (Sandbox Code Playgroud)

注意,'fo o'也没有被Nan替换,尽管它包含一个空格.进一步说明,这很简单:

df.replace(r'', np.NaN)

Run Code Online (Sandbox Code Playgroud)

也不起作用 - 尝试一下.

Answer 3

Bre*_*arn 32

怎么样:

d = d.applymap(lambda x: np.nan if isinstance(x, basestring) and x.isspace() else x)

Run Code Online (Sandbox Code Playgroud)

该applymap函数将函数应用于数据帧的每个单元格.

上面代码中对"basestring"的引用在Python 3中不起作用....在这种情况下,请尝试使用"str"代替. (11认同)
请注意,此解决方案不会替换空字符串`''`.也考虑空字符串,使用:'d = d.applymap(拉姆达X:np.nan如果isinstance(X,即basestring)和(非x或x.isspace()),否则x)` (3认同)

Answer 4

Xia*_*iao 14

我会这样做的:

df = df.apply(lambda x: x.str.strip()).replace('', np.nan)

Run Code Online (Sandbox Code Playgroud)

要么

df = df.apply(lambda x: x.str.strip() if isinstance(x, str) else x).replace('', np.nan)

Run Code Online (Sandbox Code Playgroud)

您可以删除所有str,然后用空格替换np.nan.

Answer 5

Gil*_*gio 6

所有解决方案中最简单的：

df = df.replace(r'^\s+$', np.nan, regex=True)

Run Code Online (Sandbox Code Playgroud)

Answer 6

Ted*_*rou 5

对于一个非常快速且简单的解决方案，您可以使用该方法来检查单个值的相等性mask。

df.mask(df == ' ')

Run Code Online (Sandbox Code Playgroud)

Answer 7

ibr*_*ala 5

如果要从CSV文件中导出数据，则可以这样简单：

df = pd.read_csv(file_csv, na_values=' ')

Run Code Online (Sandbox Code Playgroud)

这将创建数据框并将空白值替换为Na

另一个选择..使用`skipinitialspace = True`还会删除定界符后的任何空格，这将导致任何长度的空格，空字符串将被读为`nan`。但是，如果出于任何原因要保留初始空间，则此选项不是一个好的选择。 (2认同)

归档时间：	13 年，2 月前
查看次数：	165975 次
最近记录：	6 年，4 月前