Java正则表达式匹配标题的降价语法

Kaf*_*arn 5 html java regex markdown stringbuffer

我有一个带有降价语法的字符串,我希望能够找到标题的降价语法,即 h1 = #、h2 = ## 等。

我知道每当我找到一个标题时,它就在行的开头。我也知道每行只能有一个标题。因此,例如,“###This is a heading”将匹配我的 h3 模式,但不适用于我的 h2 或 h1 模式。到目前为止,这是我的代码:

h1 = Pattern.compile("(?<!\\#)^\\#(\\b)*");
h2 = Pattern.compile("(?<!\\#)^\\#{2}(\\b)*");
h3 = Pattern.compile("(?<!\\#)^\\#{3}(\\b)*");
h4 = Pattern.compile("(?<!\\#)^\\#{4}(\\b)*");
h5 = Pattern.compile("(?<!\\#)^\\#{5}(\\b)*");
h6 = Pattern.compile("(?<!\\#)^\\#{6}(\\b)*");
Run Code Online (Sandbox Code Playgroud)

每当我使用 \\# 时,我的编译器 (IntelliJ) 都会告诉我:“冗余字符转义”。每当我使用 \\# 时它都会这样做。据我所知,# 不应该是正则表达式中的特殊字符,所以用两个反斜杠转义它应该允许我使用它。

当我找到匹配项时,我想用粗体 HTML 标记包围整个匹配项,如下所示:“ ###Heading ”,但由于某种原因它不起作用

//check for heading 6
Matcher match = h6.matcher(tmp);
StringBuffer sb = new StringBuffer();
while (match.find()) {
    match.appendReplacement(sb, "<b>" + match.group(0) + "</b>");
}
match.appendTail(sb);
tmp = sb.toString();
Run Code Online (Sandbox Code Playgroud)

编辑

所以我必须单独查看每个标题,我不能以相同的模式查看标题 1-6(这与使用相同模式的程序的其他部分有关)。到目前为止我所知道的:

  • 如果字符串中有标题,则它位于开头。
  • 如果它以标题开头,则后面的整个字符串都被视为标题,直到用户按 Enter。
  • 如果我有“## 这是一个标题”,那么它对于 h2 必须匹配 true,对于 h1 则必须匹配 false。
  • 当我找到我的匹配项时,这个“## This a Heading”变成了这个“ ## This a heading”

Wik*_*żew 6

无需转义,#因为它不是特殊的正则表达式元字符。另外, 是^字符串起始锚点,因此模式中的所有后向查找都是多余的,因为它们总是返回true(因为字符串开头之前没有字符)。

#您似乎想要匹配单词字符之前的指定数量。使用

String s = "###### Heading6 Something here\r\n" +
           "###### More text \r\n" +
          "###Heading 3 text";
Matcher m = Pattern.compile("(?m)^#{6}(?!#)(.*)").matcher(s);
String result = m.replaceAll("<b>$1</b>");
System.out.println(result);
Run Code Online (Sandbox Code Playgroud)

查看Java 演示

结果:

<b> Heading6 Something here</b>
<b> More text </b>
###Heading 3 text
Run Code Online (Sandbox Code Playgroud)

细节

  • (?m)- 现在,^匹配行的开头
  • ^- 一行的开头
  • #{6}(?!#)- 正好 6 个#符号
  • (.*)- 第 1 组:除了换行符之外的 0 个以上字符到行尾。

因此,您的正则表达式定义将类似于

h1 = Pattern.compile("(?m)^#(?!#)(.*)");
h2 = Pattern.compile("(?m)^#{2}(?!#)(.*)");
h3 = Pattern.compile("(?m)^#{3}(?!#)(.*)");
h4 = Pattern.compile("(?m)^#{4}(?!#)(.*)");
h5 = Pattern.compile("(?m)^#{5}(?!#)(.*)");
h6 = Pattern.compile("(?m)^#{6}(?!#)(.*)");
Run Code Online (Sandbox Code Playgroud)


Riz*_*man 5

你可以试试这个

^(#{1,6}\s*[\S]+)
Run Code Online (Sandbox Code Playgroud)

正如您所提到的,标题仅出现在行的开头,因此您不需要向后看。

更新:如果您想加粗以标题开头的整行,那么您可以尝试以下操作:

^(#{1,6}.*)
Run Code Online (Sandbox Code Playgroud)

并替换为:

<b>$1</b>
Run Code Online (Sandbox Code Playgroud)

正则表达式演示

Java 源代码示例:

final String regex = "^(#{1,6}\\s*[\\S]+)";
final String string = "#heading 1 \n"
     + "bla bla bla\n"
     + "### heading 3 djdjdj\n"
     + "bla bla bla\n"
     + "## heading 2 bal;kasddfas\n"
     + "fbla bla bla";
final String subst = "<b>$1</b>";
final Pattern pattern = Pattern.compile(regex, Pattern.MULTILINE);
final Matcher matcher = pattern.matcher(string);
final String result = matcher.replaceAll(subst);
System.out.println(result);
Run Code Online (Sandbox Code Playgroud)

运行java源