我想创建一个页面,其中所有驻留在我网站上的图像都列有标题和替代表示.
我已经给我写了一个程序来查找和加载所有HTML文件,但现在我被困在如何提取src
,title
并alt
从这个HTML:
<img src="/image/fluffybunny.jpg" title="Harvey the bunny" alt="a cute little fluffy bunny" />
Run Code Online (Sandbox Code Playgroud)
我想这应该用一些正则表达式完成,但由于标签的顺序可能会有所不同,而且我需要所有这些,我真的不知道如何以优雅的方式解析它(我可以通过char方式,但这很痛苦).
我想知道如何实现这一目标.
假设:有很多包含表格,div,图像等的html代码.
问题:如何获得所有出现的匹配.更重要的是,具体来说,我如何获得img标记源(src =?).
例:
<img src="http://example.com/g.jpg" alt="" />
Run Code Online (Sandbox Code Playgroud)
在这种情况下,如何打印http://example.com/g.jpg.我想假设在我提到的html代码中还有其他标签,可能还有多个图像.是否有可能在html代码中拥有所有图像源的数组?
我知道这可以通过正则表达式实现,但我无法理解它.
任何帮助是极大的赞赏.
我试图从HTML字符串中提取href和src链接.根据这篇文章,我能够得到图像部分.任何人都可以帮助调整正则表达式以包含集合中的href URL吗?
public List<string> GetLinksFromHtml(string content)
{
string regex = @"<img[^>]*?src\s*=\s*[""']?([^'"" >]+?)[ '""][^>]*?>";
var matches = Regex.Matches(content, regex, RegexOptions.IgnoreCase | RegexOptions.Singleline);
var links = new List<string>();
foreach (Match item in matches)
{
string link = item.Groups[1].Value;
links.Add(link);
}
return links;
}
Run Code Online (Sandbox Code Playgroud)