enz*_*nzo 1 javascript python ajax scrapy
我正在开发一个抓取应用程序,以在网页上抓取一些数据
但是ajax加载了一些数据,因此python不能执行该操作来获取数据。
是否有任何库可以模拟浏览器的行为?
为此,您必须使用成熟的Javascript引擎(例如Chrome中的Google V8)才能获得浏览器的真实功能及其交互方式。但是,您可以通过在源中查找所有URL并向每个URL发出请求,以获取一些有效数据来获得一些信息。但总的来说,您没有完整的Javascript引擎。
像python-spidermonkey这样的东西。Mozilla Javascript引擎的包装。但是,使用它可能会相当复杂,但这取决于您的特定应用程序。
基本上,您必须构建一个浏览器,但是似乎Python人员已经使它变得简单了。使用PyWebkitGtk,您将获得dom,并使用前面提到的python-spidermonkey或Duncan提到的PyV8,从理论上讲,您将获得浏览器/网络爬虫所需的全部功能。
| 归档时间: |
|
| 查看次数: |
8221 次 |
| 最近记录: |