使用C#抓取网页(html)

Kev*_*vin 4 html c# regex xpath

这只是一个普遍的问题.目前我正在使用正则表达式进行网页抓取.但我认为有时候很难弄清楚正则表达式,所以我认为XSL/XPath是C#中正则表达式的替代品吗?

另外,我想知道除了上面列出的两个之外是否还有更先进的网页抓取技术.谢谢.

Dar*_*rov 7

您可以查看SgmlReaderHtml Agility Pack,它们是.NET的HTML解析库.