Joj*_*ojo 5 javascript c# windows webforms
我有一个webcrawler应用程序.它成功抓取了大多数常见和简单的网站.现在我遇到了一些类型的网站,其中HTML文档是通过FORMS或javascripts动态生成的.我相信他们可以爬行,我只是不知道如何.现在,这些网站不显示实际的HTML页面.我的意思是如果我在IE或firefox中浏览该页面,HTML代码与IE或Firefox中的实际内容不匹配.这些网站包含文本框,复选框等...所以我相信他们就是所谓的"Web表单".实际上我对网络开发并不熟悉,所以如果我错了就纠正我.
我的问题是,有没有像我现在一样处于类似情况的人,并成功地解决了这些类型的"挑战"?有没有人知道有关网页抓取的某本书或文章?那些与这些先进类型的网站有关的?
谢谢.
我发现一篇讨论深层网络的文章非常有趣,我认为这回答了我上面的问题。
http://www.trycatchfail.com/2008/11/10/creating-a-deep-web-crawler-with-net-background/
一定要喜欢这个。