使用Javascripts或Web表单的Web爬网站点

Question

使用Javascripts或Web表单的Web爬网站点

Joj*_*ojo 5 javascript c# windows webforms

我有一个webcrawler应用程序.它成功抓取了大多数常见和简单的网站.现在我遇到了一些类型的网站,其中HTML文档是通过FORMS或javascripts动态生成的.我相信他们可以爬行,我只是不知道如何.现在,这些网站不显示实际的HTML页面.我的意思是如果我在IE或firefox中浏览该页面,HTML代码与IE或Firefox中的实际内容不匹配.这些网站包含文本框,复选框等...所以我相信他们就是所谓的"Web表单".实际上我对网络开发并不熟悉,所以如果我错了就纠正我.

我的问题是,有没有像我现在一样处于类似情况的人,并成功地解决了这些类型的"挑战"？有没有人知道有关网页抓取的某本书或文章？那些与这些先进类型的网站有关的？

谢谢.

Answer 1

Joj*_*ojo 1

我发现一篇讨论深层网络的文章非常有趣，我认为这回答了我上面的问题。

http://www.trycatchfail.com/2008/11/10/creating-a-deep-web-crawler-with-net-background/

一定要喜欢这个。

归档时间：	16 年，2 月前
查看次数：	2492 次
最近记录：	8 年，6 月前