使用python打开Web浏览器(在Windows上),触发javascript操作,并获取html内容？

Question

是的,听起来过于复杂.

我正在尝试从内部网上的页面中挖掘数据.页面是安全的.当我尝试使用urllib.urlopen()获取内容时,连接被拒绝.

因此,我想使用python打开Web浏览器打开该站点,然后单击一些链接,触发包含我想要收集的信息表的javascript弹出窗口.

有关从哪里开始的任何建议？

我知道页面的格式.它是这样的:

<div id="list">
    <ul id="list item">
        <li><a onclict="Openpopup('1');">blah</a></li>
    </ul>
    <ul></ul>
    etc

然后隐藏的框架变得可见,并且表格中的字段被填充.

<div>
    <table>
       <tr><td><span id="info_i_want">...

Answer 1

首先,我建议最好弄清楚JS提供的页面需要什么,并假设 - 如果不涉及浏览器,您将更容易抓取页面.

如果它只是 Javascript生成XMLHttpRequest,您可以找到Javascript从中获取iframe数据并直接连接到该页面的页面.

但是,尽管如此,您可能需要一个执行Javascript执行的库(如果逆向工程太难或它使用挑战令牌).像Gecko或WebKit这样的Web渲染框架可能是合适的.

如果您坚持使用真正的Web浏览器或无法使程序化方法起作用,请仔细查看Selenium.

通过任何方法获得页面内容后,您需要一个HTML解析器(例如sgmllib或[几乎] xml.dom).我建议使用DOM库.解析DOM并从结果树中的适当节点中提取内容.