正则表达式从HTML标记获取属性

Kri*_*mar 14 java regex

我正在寻找一个正则表达式,可以从java中的以下HTML片段中获取src(不区分大小写)标记.

<html><img src="kk.gif" alt="text"/></html>
<html><img src='kk.gif' alt="text"/></html>
<html><img src = "kk.gif" alt="text"/></html>

Run Code Online (Sandbox Code Playgroud)

一种可能性:

String imgRegex = "<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>";

Run Code Online (Sandbox Code Playgroud)

是一种可能性(如果匹配不区分大小写).这有点乱,故意忽略不使用引号的情况.要表示它而不必担心字符串转义:

<img[^>]+src\s*=\s*['"]([^'"]+)['"][^>]*>

Run Code Online (Sandbox Code Playgroud)

匹配:

<img
一个或多个不是的字符>(即可能的其他属性)
src
可选的空格
=
可选的空格
起始分隔符'或"
图像源(可能不包含单引号或双引号)
结束分隔符
虽然表达式可以在这里停止,但我补充说:
- 零个或多个不是的字符>(更多可能的属性)
- > 关闭标签

注意事项:

如果你想包含它src=,请将左侧的开放式支架向左移动:-)
这并不关心平衡定界符或无定界符属性值,并且它也可以呛严重形成的属性(例如包括属性>包括或图像源'或").
使用像这样的正则表达式解析HTML是非常重要的,并且充其量只是在大多数情况下都适用的快速黑客.

我很高兴在这个世界上存在的人不仅比我更了解正则表达式,而且还足以分享这种理解.这个正则表达式正是我所需要的.谢谢!!! (2认同)

这个问题在这里出现了很多.

正则表达式是处理此问题的一种不好的方法.帮自己一个忙,并使用某种HTML解析器.

正则表达式用于解析HTML.你最终会得到一个复杂的表达式,在某些特殊情况下会出现意外行为.

编辑: 如果您的HTML很简单,那么:

Pattern p = Pattern.compile("src\\s*=\\s*([\\"'])?([^ \\"']*)");
Matcher m = p.matcher(str);
if (m.find()) {
  String src = m.group(2);
}

Run Code Online (Sandbox Code Playgroud)

并且有许多Java HTML解析器.

说没有链接到解析器并不是很有用. (2认同)

归档时间：	16 年，7 月前
查看次数：	33846 次
最近记录：	9 年，9 月前

在Java中将String转换为double 273

我为什么要使用Deque over Stack？ 134

java.util.regex - Pattern.compile()的重要性？ 115

如何在Java中生成随机字符串 70

有没有办法在java 8中将ZoneId转换为ZoneOffset？ 63

使用Jersey Client忽略自签名的ssl证书 61

Preg_replace与数组替换 15

正则表达式中'\ G'锚点的用途是什么？ 8

正则表达式游戏 - 用可变数量的字符替换除特定单词之外的每个单词 7

MySQL REGEXP用于以.开头的数字 6

什么是正确的JSON内容类型？ 9962

避免!= null语句 3904

Flash CS4拒绝放手 2735

如何使用CSS为文本或图像提供透明背景？ 2211

如何获得$(this)选择器的子节点？ 2182

如何修改指定的提交？ 2077

如何确定Python变量的类型？ 1437

重写System.Object.GetHashCode的最佳算法是什么？ 1389

关闭特定行的eslint规则 1214

如何从Git的暂存区域中删除单个文件,但不将其从索引中删除或撤消对文件本身的更改？ 1177