刮HTML和JavaScript

use*_*948 5 javascript python parsing web-crawler web-scraping

我正在开展一个项目,我需要抓取几个网站并从中收集不同类型的信息.文本,链接,图像等信息

我正在使用Python.我在HTML页面上为此目的尝试了BeautifulSoup并且它可以工作,但是在解析包含大量JavaScript的网站时我很困难,因为这些文件的大部分信息都存储在<script>标记中.

任何想法如何做到这一点?

bos*_*jak 4

首先,从页面中删除和解析 JS 并不是一件简单的事。然而,如果您使用无头 Web 客户端,它可以大大简化,它会像普通浏览器一样为您解析所有内容。
唯一的区别是它的主界面不是GUI/HMI而是API。

例如,您可以将PhantomJS与 Chrome 或 Firefox 一起使用,它们都支持无头模式。

如需更完整的无头浏览器列表,请查看此处


归档时间:

查看次数:

9700 次

最近记录:

6 年,9 月 前