从字符串中获取多个子字符串

Question

从字符串中获取多个子字符串

所以我有html文件.我需要从中提取所有链接和图像.基本上我需要:

<a href="this_is_what_I_need"> 和 <img src="this_is_also_needed">

我逐行阅读文件,可以得到它,但只有第一个:

    List<string> links = new List<string>();
    if (line.Contains(@"<a href=""") || line.Contains(@"<img src="""))
    {
        if (line.Contains(@"<a href=""")
        {
            links.Add(line.Split(new string[] { @"<a href""" }, StringSplitOptions.None)[1].Split('"')[0]);
        }
        else
        {
            links.Add(line.Split(new string[] { @"<a href=""" }, StringSplitOptions.None)[1].Split('"')[0]);
        }
    }

Run Code Online (Sandbox Code Playgroud)

但是一行可能包含多个链接和/或图像.那么如何获得所有？

Answer 1

BRA*_*mel 5

我不认为你正在使用正确的方法来做那个我可以建议的是看看一个报废工具 HtmlAgilityPack,它被优化用于做这些事情

这里有一个例子,<a href=""但你可以适应它<img src="""

HtmlDocument doc = new HtmlDocument();
doc.Load("mytest.htm");

foreach (HtmlNode node in doc.DocumentNode.SelectNodes("//a[@class='dn-index-link']"))
{
    Console.WriteLine("node:" + node.GetAttributeValue("href", null));
}

Run Code Online (Sandbox Code Playgroud)

@ fishmong3r如果你的意思是*输入*是php; 您将不得不尝试查看HTML Agility Pack的功能 (2认同)

归档时间：	11 年，4 月前
查看次数：	487 次
最近记录：	8 年，2 月前