c# - 阅读HTML?

Gre*_*nih 2 html c# parsing

我正在用C#开发一个程序,我需要一些帮助.我正在尝试创建一个显示在某个网站上的数组或项目列表.我要做的是阅读锚文本,它是href.例如,这是HTML:

<div class="menu-1">
    <div class="items">
        <div class="minor">
            <ul>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-1" href="/?item=1">Item 1</a>
                </li>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-2" href="/?item=2">Item 2</a>
                </li>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-3" href="/?item=3">Item 3</a>
                </li>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-4" href="/?item=4">Item 4</a>
                </li>
                <li class="menu-item">
                    <a class="menu-link" title="Item-1" id="menu-item-5" href="/?item=5">Item 5</a>
                </li>
            </ul>
        </div>
    </div>
</div>
Run Code Online (Sandbox Code Playgroud)

所以从这个HTML我想读这个:

string[,] array = {{"Item 1", "/?item=1"}, {"Item 2", "/?item=2"}, {"Item 3", "/?item=3"}, {"Item 4", "/?item=4"}, {"Item 5", "/?item=5"}};
Run Code Online (Sandbox Code Playgroud)

HTML是我写的一个例子,实际的网站看起来不像那样.

Ant*_*ula 6

正如其他人所说HtmlAgilityPack最适合html解析,也一定要从HtmlAgilityPack网站下载HAP资源管理器,用它来测试你的选择,无论如何,这个SelectNode命令将获得所有具有ID的锚点,并以菜单项开头:

  HtmlDocument doc = new HtmlDocument();
  doc.Load(htmlFile);
  var myNodes = doc.DocumentNode.SelectNodes("//a[starts-with(@id,'menu-item-')]");
  foreach (HtmlNode node in myNodes)
  {
    Console.WriteLine(node.Id);

  }
Run Code Online (Sandbox Code Playgroud)