RegEx用于提取HTML图像属性

Inf*_*tus 0 .net html regex html-content-extraction

我需要一个RegEx模式来提取图像标记的所有属性.

众所周知,那里存在大量格式错误的HTML,因此模式必须涵盖这些可能性.

我正在寻找这个解决方案/sf/ask/9681941/但它并没有完全得到它:

我提出的事情如下:

(alt|title|src|height|width)\s*=\s*["'][\W\w]+?["']
Run Code Online (Sandbox Code Playgroud)

是否有任何可能性我会丢失或更有效的简单模式?

编辑:
对不起,我将更具体,我正在使用.NET这样做,所以它在服务器端.
我已经有了一个img标签列表,现在我只需要解析属性.

Tom*_*lak 5

众所周知,那里存在大量格式错误的HTML,因此模式必须涵盖这些可能性.

它不会.如果必须解析"邪恶"(来自未知来源)HTML,请使用HTML解析器.