屏幕刮痧

JMa*_*sch 3 c# screen-scraping

只是好奇:这些天你发现什么是创建自动屏幕抓取的最佳工具?.Net Agility包是一个不错的选择吗?你如何抓取使用大量AJAX的网站?

cas*_*One 7

我发现如果页面有一个非常静态的布局,那么HTML Agility Pack非常适合获取我需要的所有数据.我没有遇到它无法处理的单个页面而没有得到我想要的结果.

如果您发现该页面使用大量动态代码进行渲染,那么您将不得不做的不仅仅是下载页面,您必须实际执行它.

要做到这一点,你需要像WebKit .NET库(围绕WebKit渲染引擎的.NET包装器)这样的东西,它允许你下载页面并实际执行Javascript.然后,一旦确定文档已完全呈现,您就可以获得页面详细信息.