小编wes*_*lls的帖子

如何使用python解析ld+json

我一直在尝试一些网页抓取,我在这个标签中发现了一些有趣的数据:

<script type="application/ld+json">
Run Code Online (Sandbox Code Playgroud)

我已经能够使用漂亮的汤来隔离那个标签

html = urlopen(url)
soup = BeautifulSoup(html, "lxml")

p = soup.find('script', {'type':'application/ld+json'})
print p
Run Code Online (Sandbox Code Playgroud)

但我无法处理数据或从该标签中提取任何数据。

如果我尝试使用正则表达式从中获取一些东西,我会得到:

TypeError: expected string or buffer
Run Code Online (Sandbox Code Playgroud)

如何从该脚本标记中获取数据并像使用字典或字符串一样使用它?顺便说一下,我正在使用 python 2.7。

python json web-scraping json-ld

9
推荐指数
2
解决办法
6344
查看次数

标签 统计

json ×1

json-ld ×1

python ×1

web-scraping ×1