.NET正则表达式在td,span,标记之间的内部文本

mus*_*qck 2 c# regex

<table >
    <tr>
        <td colspan="2" style="height: 14px">
            tdtext1
            <a>hyperlinktext1<a/> 
        </td>
    </tr>
    <tr>
        <td>
            tdtext2
        </td>
        <td>
            <span>spantext1</span>
        </td>
    </tr>
</table>   
Run Code Online (Sandbox Code Playgroud)

这是我的示例文本.如何用C#正则表达式来获得比赛的的innerText为td,span,超链接.

Jos*_*osh 7

每当我在同一句话中听到正则表达式和HTML时,我都会畏缩.我建议检查CodePlex上的HtmlAgilityPack,它是一个非常宽容的HTML解析器,允许您对解析的文档使用XPath查询.它更干净,继承你代码的人会感谢你!

编辑

根据下面的评论,这里有一些如何获取这些标签的InnerText的例子.非常简单.

var doc = new HtmlDocument();
doc.LoadHtml("...your sample html...");

// all <td> tags in the document
foreach (HtmlNode td in doc.DocumentNode.SelectNodes("//td")) {
    Console.WriteLine(td.InnerText);
}

// all <span> tags in the document
foreach (HtmlNode span in doc.DocumentNode.SelectNodes("//span")) {
    Console.WriteLine(span.InnerText);
}

// all <a> tags in the document
foreach (HtmlNode a in doc.DocumentNode.SelectNodes("//a")) {
    Console.WriteLine(a.InnerText);
}
Run Code Online (Sandbox Code Playgroud)