如何使用Python提取在HTML页面javascript块中定义的JSON对象?

use*_*956 17 python beautifulsoup html-parsing headless-browser

我正在下载以下列方式定义数据的HTML页面:

... <script type= "text/javascript">    window.blog.data = {"activity":{"type":"read"}}; </script> ...
Run Code Online (Sandbox Code Playgroud)

我想提取'window.blog.data'中定义的JSON对象.有没有比手动解析更简单的方法?(我正在寻找美丽的肥皂,但似乎无法找到一个方法,将返回确切的对象而不解析)

谢谢

编辑: 使用python无头浏览器(例如,Ghost.py)执行此操作是否可行且更正确?

jfs*_*jfs 16

BeautifulSoup是一个HTML解析器; 你还需要一个javascript解析器.顺便说一句,一些javascript对象文字是无效的json(虽然在你的例子中,文字也是一个有效的json对象).

在简单的情况下,您可以:

  1. <script>使用html解析器提取文本
  2. 假设window.blog...是单行或';'对象内部没有,并使用简单的字符串操作或正则表达式提取javascript对象文字
  3. 假设该字符串是有效的json并使用json模块解析它

例:

#!/usr/bin/env python
html = """<!doctype html>
<title>extract javascript object as json</title>
<script>
// ..
window.blog.data = {"activity":{"type":"read"}};
// ..
</script>
<p>some other html here
"""
import json
import re
from bs4 import BeautifulSoup  # $ pip install beautifulsoup4
soup = BeautifulSoup(html)
script = soup.find('script', text=re.compile('window\.blog\.data'))
json_text = re.search(r'^\s*window\.blog\.data\s*=\s*({.*?})\s*;\s*$',
                      script.string, flags=re.DOTALL | re.MULTILINE).group(1)
data = json.loads(json_text)
assert data['activity']['type'] == 'read'
Run Code Online (Sandbox Code Playgroud)

如果假设不正确则代码失败.

放松第二个假设,一个javascript解析器可以改为使用正则表达式例如,slimit(通过建议的@approximatenumber):

from slimit import ast  # $ pip install slimit
from slimit.parser import Parser as JavascriptParser
from slimit.visitors import nodevisitor

soup = BeautifulSoup(html, 'html.parser')
tree = JavascriptParser().parse(soup.script.string)
obj = next(node.right for node in nodevisitor.visit(tree)
           if (isinstance(node, ast.Assign) and
               node.left.to_ecma() == 'window.blog.data'))
# HACK: easy way to parse the javascript object literal
data = json.loads(obj.to_ecma())  # NOTE: json format may be slightly different
assert data['activity']['type'] == 'read'
Run Code Online (Sandbox Code Playgroud)

不需要将对象literal(obj)视为json对象.要获得必要的信息,obj可以像其他ast节点一样递归访问.它将允许支持任意javascript代码(可以解析slimit).


小智 6

这样的事情可能会起作用:

import re

HTML = """ 
<html>
    <head>
    ...
    <script type= "text/javascript"> 
window.blog.data = {"activity":
    {"type":"read"}
    };
    ...
    </script> 
    </head>
    <body>
    ...
    </body>
    </html>
"""

JSON = re.compile('window.blog.data = ({.*?});', re.DOTALL)

matches = JSON.search(HTML)

print matches.group(1)
Run Code Online (Sandbox Code Playgroud)