标签: scrapely

如何使用scrapely提取项目列表?

我正在使用scrapely从一些HTML中提取数据,但是我在提取项目列表时遇到了困难.

scrapely GitHub的项目仅描述一个简单的例子:

from scrapely import Scraper
s = Scraper()

s.train(url, data)
s.scrape(another_url)
Run Code Online (Sandbox Code Playgroud)

例如,如果您尝试按照描述提取数据,这很好:

用法(API)

Scrapely有一个强大的API,包括可以在外部编辑的模板格式,您可以使用它来构建非常强大的scraper.

以下部分是最简单的可能用法的快速示例,您可以在Python shell中运行.

但是,如果您发现了类似的内容,我不确定如何提取数据

Ingredientes

- 50 gr de hojas de albahaca
- 4 cucharadas (60 ml) de piñones
- 2 - 4 dientes de ajo
- 120 ml (1/2 vaso) de aceite de oliva virgen extra
- 115 gr de queso parmesano recién rallado
- 25 gr de queso pecorino recién rallado ( o queso de leche de oveja curado)
Run Code Online (Sandbox Code Playgroud)

我知道我不能通过使用xpath或css选择器来提取它,但我更感兴趣的是使用可以为类似页面提取数据的解析器.

python data-extraction scrapely

4
推荐指数
1
解决办法
1213
查看次数

标签 统计

data-extraction ×1

python ×1

scrapely ×1