小编TaL*_*TaL的帖子

使用 pyppeteer 抓取数据

我正在尝试使用 pyppeteer从这个网站https://quickfs.net/company/BABA:US抓取数据,如果没有这个网站会知道我正在抓取。

所以我的第一个问题是:

  1. 使用 pyppeteer 进行抓取我不会被(网站)注意到进行抓取,这是正确的吗?

当输入右上角的链接时,会出现一个下拉列表,其中包含以下项目:概述、损益表、...、关键比率。

我想使用 pyppeteer 从下拉列表中选择 Key Ratios ,然后从那里提取Per-Share Items的数据,并从那里提取Book Value的行。

在我对该网站链接的预览问题的最后评论中,我被告知此下拉列表“仅触发呈现相同数据的不同方式”。

所以我的第二个问题和第三个问题是(也许它们是相同的):

  1. 我应该以某种方式模拟使用 pyppeteer 选择的关键比率吗?

  2. 如何使用 pyppeteer 从关键比率触发器中提取数据,而不会让网站知道有人正在抓取它?

我使用这些问题编写了一个代码来执行此操作,但我的代码仅从第一个页面的“概述”页面中提取数据。

这是我基于代码的问题

  1. 如何从带有加载屏幕的网页检索数据?
  2. 使用 pyppeteer 与 asyncio 关联来抓取内容

我还尝试从这篇文章中了解:Web Scraping with a Headless Browser: A Puppeteer Tutorial如何使用bottoms,但它不是使用Python的pyppeteer,而是使用Puppeteer

这是我使用的代码:

import pyppeteer
import asyncio

async def main():
# launches a chromium browser, can use chrome instead of chromium as well.
browser = …
Run Code Online (Sandbox Code Playgroud)

python web-scraping pyppeteer

5
推荐指数
1
解决办法
9800
查看次数

标签 统计

pyppeteer ×1

python ×1

web-scraping ×1