我正在尝试使用 pyppeteer从这个网站https://quickfs.net/company/BABA:US抓取数据,如果没有这个网站会知道我正在抓取。
所以我的第一个问题是:
当输入右上角的链接时,会出现一个下拉列表,其中包含以下项目:概述、损益表、...、关键比率。
我想使用 pyppeteer 从下拉列表中选择 Key Ratios ,然后从那里提取Per-Share Items的数据,并从那里提取Book Value的行。
在我对该网站链接的预览问题的最后评论中,我被告知此下拉列表“仅触发呈现相同数据的不同方式”。
所以我的第二个问题和第三个问题是(也许它们是相同的):
我应该以某种方式模拟使用 pyppeteer 选择的关键比率吗?
如何使用 pyppeteer 从关键比率触发器中提取数据,而不会让网站知道有人正在抓取它?
我使用这些问题编写了一个代码来执行此操作,但我的代码仅从第一个页面的“概述”页面中提取数据。
这是我基于代码的问题
我还尝试从这篇文章中了解:Web Scraping with a Headless Browser: A Puppeteer Tutorial如何使用bottoms,但它不是使用Python的pyppeteer,而是使用Puppeteer
这是我使用的代码:
import pyppeteer
import asyncio
async def main():
# launches a chromium browser, can use chrome instead of chromium as well.
browser = …Run Code Online (Sandbox Code Playgroud)