seq*_*oia 1 javascript python windows
是的,听起来过于复杂.
我正在尝试从内部网上的页面中挖掘数据.页面是安全的.当我尝试使用urllib.urlopen()获取内容时,连接被拒绝.
因此,我想使用python打开Web浏览器打开该站点,然后单击一些链接,触发包含我想要收集的信息表的javascript弹出窗口.
有关从哪里开始的任何建议?
我知道页面的格式.它是这样的:
<div id="list">
<ul id="list item">
<li><a onclict="Openpopup('1');">blah</a></li>
</ul>
<ul></ul>
etc
Run Code Online (Sandbox Code Playgroud)
然后隐藏的框架变得可见,并且表格中的字段被填充.
<div>
<table>
<tr><td><span id="info_i_want">...
Run Code Online (Sandbox Code Playgroud)
首先,我建议最好弄清楚JS提供的页面需要什么,并假设 - 如果不涉及浏览器,您将更容易抓取页面.
如果它只是 Javascript生成XMLHttpRequest,您可以找到Javascript从中获取iframe数据并直接连接到该页面的页面.
但是,尽管如此,您可能需要一个执行Javascript执行的库(如果逆向工程太难或它使用挑战令牌).像Gecko或WebKit这样的Web渲染框架可能是合适的.
如果您坚持使用真正的Web浏览器或无法使程序化方法起作用,请仔细查看Selenium.
通过任何方法获得页面内容后,您需要一个HTML解析器(例如sgmllib或[几乎] xml.dom).我建议使用DOM库.解析DOM并从结果树中的适当节点中提取内容.
| 归档时间: |
|
| 查看次数: |
1778 次 |
| 最近记录: |