小编ped*_*gis的帖子

如何使用 python 请求和 bs4 (BeautifulSoup) 模块使用 cookie 和 javascript“javax.faces.ViewState”CDATA 在 .jsf 网站中进行网页抓取？

我想自动从该网站提取数据：

http://www.snirh.gov.br/hidroweb/publico/medicoes_historicas_abas.jsf

提取我想要的数据应遵循的步骤的说明：

从上面的 url 开始，单击“S\xc3\xa9ries Hist\xc3\xb3ricas”。您应该看到一个页面，其中包含带有一些输入的表单。就我而言，我只需要在“C\xc3\xb3digo da Esta\xc3\xa7\xc3\xa3o”输入中输入车站代码。假设电台代码是 938001，插入该代码并点击“Consultar”。现在您应该看到很多复选框。选中“Selecionar”下面的一项，该选项将选中所有复选框。假设我不需要各种数据，我想要降雨率和流量，我只选中“Chuva”下面的复选框和“Vaz\xc3\xa3o”下面的另一个复选框。之后需要选择要下载的文件类型，选择“Arquivo Texto (.TXT)”，这是.txt格式。之后需要生成文件，为此单击“Gerar Arquivo”。之后就可以下载文件，只需单击“Baixar Arquivo”即可。

注意：该网站目前版本为v1.0.0.12，以后可能会有所不同。

我有一个车站代码列表。想象一下，这些操作执行超过 1000 次会有多糟糕？！我想自动化这个！

巴西的许多人一直在尝试从该网站自动提取数据。我发现的一些：

非常旧的：https://www.youtube.com/watch?v =IWCrC0MlasQ

其他：\n https://pt.stackoverflow.com/questions/60124/gerar-e-baixar-links-programaticamente/86150#86150

https://pt.stackoverflow.com/questions/282111/r-download-de-dados-do-portal-hidroweb

我发现的早期尝试，但这也不起作用，因为该网站已更改： https: //github.com/duartejr/pyHidroWeb

所以很多人都需要这个，并且由于网站的更新，上述解决方案都没有更有效。

我不想使用 selenium，与使用 requests 库的解决方案相比，它很慢，并且需要一个接口。

我的尝试：

#!/usr/bin/env python\n# -*- coding: utf-8 -*-\n\nfrom bs4 import BeautifulSoup\nimport requests\nfrom urllib import parse\n\n\nURL = \'http://www.snirh.gov.br/hidroweb/publico/apresentacao.jsf\'\n\ns = requests.Session()\n\nr = s.get(URL)\n\nJSESSIONID = s.cookies[\'JSESSIONID\']\n\nsoup = BeautifulSoup(r.content, "html.parser")\n\njavax_faces_ViewState = soup.find("input", {"type": "hidden", "name":"javax.faces.ViewState"})[\'value\']\n\n\nd = {}\nd[\'menuLateral:menuForm\'] …

Run Code Online (Sandbox Code Playgroud)

python jsf cdata web-scraping python-requests

ped*_*gis

2021 02-13

5
推荐指数

1
解决办法

4396
查看次数