Java Regex捕获组

Xiv*_*lai 161 java regex

我试图理解这个代码块.在第一个中,我们在表达中寻找什么?

我的理解是它是任何字符(0次或更多次*)后跟0到9之间的任何数字(一次或多次+)后跟任何字符(0次或更多次*).

执行此操作时,结果为:

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0
Run Code Online (Sandbox Code Playgroud)

有人可以和我一起讨论吗?

使用捕获组有什么好处?

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTut3 {

    public static void main(String args[]) {
        String line = "This order was placed for QT3000! OK?"; 
        String pattern = "(.*)(\\d+)(.*)";

        // Create a Pattern object
        Pattern r = Pattern.compile(pattern);

        // Now create matcher object.
        Matcher m = r.matcher(line);

        if (m.find()) {
            System.out.println("Found value: " + m.group(0));
            System.out.println("Found value: " + m.group(1));
            System.out.println("Found value: " + m.group(2));
        } else {
            System.out.println("NO MATCH");
        }
    }

}
Run Code Online (Sandbox Code Playgroud)

Men*_*ena 232

你遇到的问题是量词的类型.您使用的是贪婪在第一组量词(指数1 -指数0代表整Pattern),这意味着它会匹配尽可能多的,因为它可以(而且因为它是任何字符,它会匹配尽可能多的字符作为有为了满足下一组的条件).

简而言之,.*只要下一组\\d+可以匹配某些东西(在这种情况下,最后一位数字),您的第一组就会匹配任何内容.

根据第3组,它将匹配最后一位数后的任何内容.

如果你把它改成第一组中不情愿的量词,你会得到我想你期望的结果,即3000部分.

请注意第1组中的问号.

String line = "This order was placed for QT3000! OK?";
Pattern pattern = Pattern.compile("(.*?)(\\d+)(.*)");
Matcher matcher = pattern.matcher(line);
while (matcher.find()) {
    System.out.println("group 1: " + matcher.group(1));
    System.out.println("group 2: " + matcher.group(2));
    System.out.println("group 3: " + matcher.group(3));
}
Run Code Online (Sandbox Code Playgroud)

输出:

group 1: This order was placed for QT
group 2: 3000
group 3: ! OK?
Run Code Online (Sandbox Code Playgroud)

Java的更多信息Pattern 这里.

最后,捕获组由圆括号分隔,并且一旦Pattern与输入匹配,就提供了一种非常有用的方法来使用反向引用(以及其他内容).

在Java 6中,只能按顺序引用组(谨防嵌套组和排序的细微之处).

在Java 7中,它更容易,因为您可以使用命名组.

  • 您可以使用[`named-regexp`](http://tony19.github.com/named-regexp/index.html)在Java 5/6中使用命名捕获组. (2认同)

f1s*_*1sh 16

这完全没问题.

  1. 第一个group(m.group(0))始终捕获正则表达式覆盖的整个区域.在这种情况下,它是整个字符串.
  2. 默认情况下,正则表达式是贪婪的,这意味着第一组在不违反正则表达式的情况下尽可能地捕获.在(.*)(\\d+)(你的正则表达式的第一部分)覆盖...QT300INT第一组和0第二.
  3. 您可以通过使第一组非贪婪来快速解决此问题:更改(.*)(.*?).

有关贪婪与懒惰的更多信息,请查看此站点.


fge*_*fge 6

你的理解是正确的。但是,如果我们走过:

  • (.*) 会吞下整根弦;
  • 它将需要返回字符以便(\\d+)满足(这0就是捕获而不是捕获的原因3000);
  • 最后一个(.*)将捕获其余部分。

然而,我不确定作者的初衷是什么。


Mic*_*gue 5

从文档:

Capturing groups</a> are indexed from left
 * to right, starting at one.  Group zero denotes the entire pattern, so
 * the expression m.group(0) is equivalent to m.group().
Run Code Online (Sandbox Code Playgroud)

所以捕获组 0 发送整行。