我正在使用scrapely从一些HTML中提取数据,但是我在提取项目列表时遇到了困难.
该scrapely GitHub的项目仅描述一个简单的例子:
from scrapely import Scraper
s = Scraper()
s.train(url, data)
s.scrape(another_url)
Run Code Online (Sandbox Code Playgroud)
例如,如果您尝试按照描述提取数据,这很好:
用法(API)
Scrapely有一个强大的API,包括可以在外部编辑的模板格式,您可以使用它来构建非常强大的scraper.
以下部分是最简单的可能用法的快速示例,您可以在Python shell中运行.
但是,如果您发现了类似的内容,我不确定如何提取数据
Ingredientes
- 50 gr de hojas de albahaca
- 4 cucharadas (60 ml) de piñones
- 2 - 4 dientes de ajo
- 120 ml (1/2 vaso) de aceite de oliva virgen extra
- 115 gr de queso parmesano recién rallado
- 25 gr de queso pecorino recién rallado ( o queso de leche de oveja curado)
Run Code Online (Sandbox Code Playgroud)
我知道我不能通过使用xpath或css选择器来提取它,但我更感兴趣的是使用可以为类似页面提取数据的解析器.