小编scu*_*-gm的帖子

使用python从<script>中的javascript var中提取数据

我是 python、BeautifulSoup 和其他新手,但我想提取 json 数据,这些数据位于网站“脚本”标签中的 javascript 变量内。

这是我现在的代码:

import re
from bs4 import BeautifulSoup
import json
import requests
url = 'myUrl'
page = requests.get(url).content
soup = BeautifulSoup(page, "html.parser")
pattern = re.compile(r"var hours = .")
script = soup.find("script",text=pattern)
print(script)
Run Code Online (Sandbox Code Playgroud)

现在我可以使用以下格式提取数据:

<script>
var hours = [{...dataIwant...}];
<\script>
Run Code Online (Sandbox Code Playgroud)

但我只想要没有“脚本”或“var hours =”的数据。我想在json中更改它并将其放入apache nifi中。

我已经尝试了几乎所有在这里和谷歌上找到的东西。但大多数情况下,当我尝试提取变量并将其更改为 json 格式时,我会遇到“无”或其他错误。

因此,如果您有一些技巧可以帮助我以 json 格式获取数据,那就太好了!

谢谢 !

javascript python json apache-nifi

5
推荐指数
1
解决办法
3041
查看次数

标签 统计

apache-nifi ×1

javascript ×1

json ×1

python ×1