小编am.*_*rez的帖子

从使用 Power BI 的网站抓取数据 - 从网站上的 Power BI 检索数据

我想从这个页面(和类似的页面)抓取数据:https : //cereals.ahdb.org.uk/market-data-centre/historical-data/feed-ingredients.aspx

此页面使用Power BI。不幸的是,找到一种抓取Power BI 的方法很困难,因为每个人都想抓取使用/进入 Power BI,而不是从中抓取。最接近的答案是这个问题。却又不相干。

首先,我使用了Apache tika,很快我意识到加载页面后正在加载表数据。我需要页面的渲染版本。

因此,我使用了Selenium。我想Select All在开始时(发送Ctrl+A组合键),但它不起作用。可能是受页面事件限制(我也尝试使用开发人员工具删除所有事件,但仍然Ctrl+A不起作用。

我还尝试阅读 HTML 内容,但 Power BIdiv使用position:absolute并区分div表中 a 的位置(行和列)将元素放在屏幕上是一项费力的活动。

由于 Power BI 使用 JSON,我尝试从那里读取数据。然而,它是如此复杂,我无法找到规则。它似乎将关键字放在某处并在表中使用它们的索引。

注意:我意识到所有数据都没有加载,甚至没有同时显示。甲divscroll-bar-part-bar是负责作为滚动条,并移动该加载/节目的数据的其他部分。

我用来读取数据的代码如下。如前所述,生成数据的顺序与浏览器上呈现的顺序不同:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

options = webdriver.ChromeOptions()
options.binary_location = "C:/Program Files (x86)/Google/Chrome/Application/chrome.exe"
driver = webdriver.Chrome(options=options, …
Run Code Online (Sandbox Code Playgroud)

python selenium web-scraping powerbi

16
推荐指数
1
解决办法
4487
查看次数

C程序中的命令行参数?

如何在C中读取命令行参数?例如,在

./test --help
Run Code Online (Sandbox Code Playgroud)

要么

./test --build
Run Code Online (Sandbox Code Playgroud)

我如何访问"--build"或"--help"?

c parameters

0
推荐指数
1
解决办法
2394
查看次数

标签 统计

c ×1

parameters ×1

powerbi ×1

python ×1

selenium ×1

web-scraping ×1