是否有一个好的测试套件或工具集可以自动化网站导航 - 使用Javascript支持 - 并从页面收集HTML?
当然,我可以使用BeautifulSoup直接删除HTML.但这对我需要Javascript的网站没有好处.:)
有没有办法从C#应用程序查看生成的网页源(所有AJAX调用和JavaScript DOM操作之后的代码),而无需从代码中打开浏览器?
使用WebRequest或WebClient对象查看初始页面工作正常,但如果页面大量使用JavaScript来更改页面加载时的DOM,则这些页面无法准确显示页面.
我尝试过使用Selenium和Watin UI测试框架,它们完美地工作,提供所有JavaScript操作完成后出现的生成源.不幸的是,他们通过打开一个非常慢的实际Web浏览器来实现这一点.我已经实现了一个selenium服务器,它将这项工作卸载到另一台机器上,但仍有很大的延迟.
是否有.Net库可以加载和解析页面(如浏览器)并吐出生成的代码?显然,谷歌和雅虎并没有为他们想要蜘蛛的每个页面开放浏览器(当然,他们可能拥有比我更多的资源......).
除非我愿意剖析开源浏览器的源代码,否则是否有这样的库或我运气不好?
解
好的,谢谢大家的帮助.我有一个比Selenium快10倍的工作解决方案.呜!
感谢来自beansoftware的这篇旧文章,我能够使用System.Windows.Forms.WebBrowser控件下载页面并解析它,然后给em生成源代码.即使控件在Windows.Forms中,你仍然可以从Asp.Net运行它(这就是我正在做的),只需记住将System.Window.Forms添加到项目引用中.
关于代码有两个值得注意的事情.首先,在新线程中调用WebBrowser控件.这是因为它必须在单线程公寓上运行.
其次,GeneratedSource变量设置在两个地方.这不是由于智能设计决定:)我还在努力,并在我完成后更新这个答案.多次调用wb_DocumentCompleted().首先下载初始HTML,然后在第一轮JavaScript完成时再次下载.不幸的是,我正在抓的网站有3个不同的加载阶段.1)加载初始HTML 2)执行第一轮JavaScript DOM操作3)暂停半秒然后进行第二轮JS DOM操作.
由于某种原因,第二轮不是由wb_DocumentCompleted()函数引起的,但是当wb.ReadyState == Complete时它总是被捕获.那么为什么不从wb_DocumentCompleted()中删除它呢?我仍然不确定为什么它没有被抓到那里,这是珠宝软件文章推荐的地方.我要继续研究它.我只是想发布这个代码,所以任何有兴趣的人都可以使用它.请享用!
using System.Threading;
using System.Windows.Forms;
public class WebProcessor
{
private string GeneratedSource{ get; set; }
private string URL { get; set; }
public string GetGeneratedHTML(string url)
{
URL = url;
Thread t = new Thread(new ThreadStart(WebBrowserThread));
t.SetApartmentState(ApartmentState.STA);
t.Start();
t.Join();
return GeneratedSource;
}
private void WebBrowserThread()
{
WebBrowser wb = new …
Run Code Online (Sandbox Code Playgroud) 我正在努力将信息提交给严重依赖Javascript来完成其大部分操作的网站.当我在浏览器中禁用Javascript时,该网站甚至无法工作.
我在Google和SO上搜索了一些解决方案,并且有人建议我应该对Javascript进行逆向工程,但我不知道该怎么做.
到目前为止,我一直在使用Mechanize,它适用于不需要Javascript的网站.
有没有办法通过使用urllib2或类似的东西访问使用Javascript的网站?我也愿意学习Javascript,如果这就是它需要的东西.