JMa*_*sch 3 c# screen-scraping
只是好奇:这些天你发现什么是创建自动屏幕抓取的最佳工具?.Net Agility包是一个不错的选择吗?你如何抓取使用大量AJAX的网站?
我发现如果页面有一个非常静态的布局,那么HTML Agility Pack非常适合获取我需要的所有数据.我没有遇到它无法处理的单个页面而没有得到我想要的结果.
如果您发现该页面使用大量动态代码进行渲染,那么您将不得不做的不仅仅是下载页面,您必须实际执行它.
要做到这一点,你需要像WebKit .NET库(围绕WebKit渲染引擎的.NET包装器)这样的东西,它允许你下载页面并实际执行Javascript.然后,一旦确定文档已完全呈现,您就可以获得页面详细信息.
| 归档时间: |
|
| 查看次数: |
2543 次 |
| 最近记录: |