Ruby中奇怪的反斜杠替换

Pet*_*ter 26 ruby regex backslash

我不明白这个Ruby代码:

>> puts '\\ <- single backslash'
# \ <- single backslash

>> puts '\\ <- 2x a, because 2 backslashes get replaced'.sub(/\\/, 'aa')
# aa <- 2x a, because two backslashes get replaced
Run Code Online (Sandbox Code Playgroud)

到目前为止,一切如预期.但是如果我们搜索1 /\\/,并用2替换,编码'\\\\',为什么我们得到这个:

>> puts '\\ <- only 1 ... replace 1 with 2'.sub(/\\/, '\\\\')
# \ <- only 1 backslash, even though we replace 1 with 2
Run Code Online (Sandbox Code Playgroud)

然后,当我们编码3时'\\\\\\',我们只得到2:

>> puts '\\ <- only 2 ... 1 with 3'.sub(/\\/, '\\\\\\')
# \\ <- 2 backslashes, even though we replace 1 with 3
Run Code Online (Sandbox Code Playgroud)

任何人都能理解为什么在替换字符串中吞下反斜杠?这发生在1.8和1.9.

two*_*ool 64

快速回答

如果您想回避所有这些混淆,请使用更少混乱的块语法.下面是一个用2个反斜杠替换每个反斜杠的示例:

"some\\path".gsub('\\') { '\\\\' }
Run Code Online (Sandbox Code Playgroud)

可怕的细节

问题是当使用sub(和gsub)时,如果没有块,ruby会在替换参数中解释特殊字符序列.不幸的是,sub使用反斜杠作为这些的转义字符:

\& (the entire regex)
\+ (the last group)
\` (pre-match string)
\' (post-match string)
\0 (same as \&)
\1 (first captured group)
\2 (second captured group)
\\ (a backslash)
Run Code Online (Sandbox Code Playgroud)

像任何逃避一样,这会产生一个明显的问题.如果要\1在输出字符串中包含上述序列之一(例如)的文字值,则必须将其转义.所以,要获得Hello \1,你需要替换字符串Hello \\1.要在Ruby中将其表示为字符串文字,您必须再次转义这些反斜杠:"Hello \\\\1"

所以,有两种不同的逃避通行证.第一个采用字符串文字并创建内部字符串值.第二个获取内部字符串值,并用匹配数据替换上面的序列.

如果反斜杠后面没有匹配上述序列之一的字符,则反斜杠(以及后面的字符)将不加改变地通过.这也会影响字符串末尾的反斜杠 - 它将不加改变地传递.在rubinius代码中最容易看到这个逻辑; 只需to_sub_replacementString类中查找该方法.

以下是如何解析替换字符串的一些示例String#sub:

  • 1个反斜杠 \(有一个字符串文字"\\")

    传递不变,因为反斜杠位于字符串的末尾并且后面没有字符.

    结果: \

  • 2个反斜杠 \\(有一个字符串文字"\\\\")

    这对反斜杠与转义的反斜杠序列匹配(见\\上文)并转换为单个反斜杠.

    结果: \

  • 3个反斜杠 \\\(有一个字符串文字"\\\\\\")

    前两个反斜杠与\\序列匹配,并转换为单个反斜杠.然后最后的反斜杠位于字符串的末尾,因此它不会改变.

    结果: \\

  • 4个反斜杠 \\\\(有一个字符串文字"\\\\\\\\")

    两对反斜杠各自匹配\\序列并转换为单个反斜杠.

    结果: \\

  • 2个反斜杠,中间有字符 \a\(有字符串文字"\\a\\")

    \a因此被允许通过未改变的不匹配任何转义序列.尾随反斜杠也允许通过.

    结果: \a\

    注:同样的结果可以从以下获得:\\a\\(使用该文本字符串:"\\\\a\\\\")

事后看来,如果String#sub使用不同的转义字符,这可能不那么令人困惑.然后就不需要双重逃避所有的反斜杠了.


san*_*ore 18

这是一个问题,因为反斜杠(\)用作Regexps和字符串的转义字符.您可以使用特殊变量\&来减少gsub替换字符串中的反斜杠数.

foo.gsub(/\\/,'\&\&\&') #for some string foo replace each \ with \\\
Run Code Online (Sandbox Code Playgroud)

编辑:我应该提到\&的值来自Regexp匹配,在这种情况下是一个反斜杠.

此外,我认为有一种特殊的方法来创建一个禁用转义字符的字符串,但显然不是.这些都不会产生两个斜杠:

puts "\\"
puts '\\'
puts %q{\\}
puts %Q{\\}
puts """\\"""
puts '''\\'''
puts <<EOF
\\
EOF  
Run Code Online (Sandbox Code Playgroud)