为什么\ R在Java 8和Java 9之间的正则表达式中表现不同?

Ger*_*zas 77 java regex unicode java-8 java-9

以下代码在Java 8和9中编译,但行为不同.

class Simple {
    static String sample = "\nEn un lugar\r\nde la Mancha\nde cuyo nombre\r\nno quiero acordarme";

    public static void main(String args[]){
        String[] chunks = sample.split("\\R\\R");
        for (String chunk: chunks) {
            System.out.println("Chunk : "+chunk);
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

当我用Java 8运行它时,它返回:

Chunk : 
En un lugar
de la Mancha
de cuyo nombre
no quiero acordarme
Run Code Online (Sandbox Code Playgroud)

但是当我使用Java 9运行它时,输出是不同的:

Chunk : 
En un lugar
Chunk : de la Mancha
de cuyo nombre
Chunk : no quiero acordarme
Run Code Online (Sandbox Code Playgroud)

为什么?

use*_*037 63

这是Java 8中的一个错误,它得到修复:JDK-8176029:"Linebreak matcher不等同于javadoc中所述的模式".

另请参阅:使用`\ R`进行Java-8正则表达式负向后观

  • 我很确定这是一个错误.`\ R`不应该被追溯到; 这有充分的理由.我会看到我能找到的东西:你绝不能将CRLF分成两个实例或`\ R`. (9认同)
  • 有趣的是,Java 8的行为看起来更加健全.虽然可以将"\ r \n"解释为两个连续的换行符,但我认为没什么意义.如果你的意思是两个换行符,你可以写"\n \n"或"\ r \n\r \n"等,即两个*相同的*换行符."\ r \n"应该只是一个意思. (7认同)
  • @GermánBouzas:我想你首先需要对换行符进行规范化,例如使用`replaceAll("\\ R","\\n")``(尚未测试,但我猜回溯变化不会播放任何这里的角色). (3认同)
  • 这说得通!.但java 8有我需要的行为.mmmh. (2认同)

tch*_*ist 47

Java文档不与Unicode标准一致性.Javadoc误\R认为应该匹配的内容.它写道:

\R 任何Unicode换行序列都相当于 \u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]

那个Java文档是错误的.在R1.6换行符一节中,正则表达式上的Unicode技术标准#18明确指出:

强烈建议使用正则表达式元字符,例如"\ R",以匹配上面列出的所有行结束字符和序列(例如,在#1中).这将对应于与以下表达式等效的内容.由于需要避免备份,该表达式稍微复杂一些.

 (?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]
Run Code Online (Sandbox Code Playgroud)

换句话说,它只能匹配两个码点CR + LF(回车+换行)序列或者从该组中的单个码点,只要它是只是单独一个回车然后后跟一个换行.那是因为它不允许备份.CRLF必须是原子的\R才能正常运行.

所以Java 9不再符合R1.6强烈推荐的内容.而且,现在它正在做一些它在Java 8中应该做的事情,而不是做的事情.

看起来是时候让谢尔曼(读作:沉雪明)再次大喊大叫.我之前和他一起处理过正式合规的这些细节问题.

  • 因此,解决方法是使用`(?> \\ R)`或`\\ R {1} +`而不是`\\ R`,或者在OP的特定情况下,使用`\\ R {2} +`而不是`\\ R \\ R`.有趣的是,即使`\\ R {1} \\ R {1}`或`\\ R {2}`在Java 9下给出了所需的结果,这是不一致的,因为非占有的`{n}`不应该禁用反向跟踪. (2认同)