use*_*956 17 python beautifulsoup html-parsing headless-browser
我正在下载以下列方式定义数据的HTML页面:
... <script type= "text/javascript"> window.blog.data = {"activity":{"type":"read"}}; </script> ...
Run Code Online (Sandbox Code Playgroud)
我想提取'window.blog.data'中定义的JSON对象.有没有比手动解析更简单的方法?(我正在寻找美丽的肥皂,但似乎无法找到一个方法,将返回确切的对象而不解析)
谢谢
编辑: 使用python无头浏览器(例如,Ghost.py)执行此操作是否可行且更正确?
jfs*_*jfs 16
BeautifulSoup是一个HTML解析器; 你还需要一个javascript解析器.顺便说一句,一些javascript对象文字是无效的json(虽然在你的例子中,文字也是一个有效的json对象).
在简单的情况下,您可以:
<script>使用html解析器提取文本window.blog...是单行或';'对象内部没有,并使用简单的字符串操作或正则表达式提取javascript对象文字例:
#!/usr/bin/env python
html = """<!doctype html>
<title>extract javascript object as json</title>
<script>
// ..
window.blog.data = {"activity":{"type":"read"}};
// ..
</script>
<p>some other html here
"""
import json
import re
from bs4 import BeautifulSoup # $ pip install beautifulsoup4
soup = BeautifulSoup(html)
script = soup.find('script', text=re.compile('window\.blog\.data'))
json_text = re.search(r'^\s*window\.blog\.data\s*=\s*({.*?})\s*;\s*$',
script.string, flags=re.DOTALL | re.MULTILINE).group(1)
data = json.loads(json_text)
assert data['activity']['type'] == 'read'
Run Code Online (Sandbox Code Playgroud)
如果假设不正确则代码失败.
放松第二个假设,一个javascript解析器可以改为使用正则表达式例如,slimit(通过建议的@approximatenumber):
from slimit import ast # $ pip install slimit
from slimit.parser import Parser as JavascriptParser
from slimit.visitors import nodevisitor
soup = BeautifulSoup(html, 'html.parser')
tree = JavascriptParser().parse(soup.script.string)
obj = next(node.right for node in nodevisitor.visit(tree)
if (isinstance(node, ast.Assign) and
node.left.to_ecma() == 'window.blog.data'))
# HACK: easy way to parse the javascript object literal
data = json.loads(obj.to_ecma()) # NOTE: json format may be slightly different
assert data['activity']['type'] == 'read'
Run Code Online (Sandbox Code Playgroud)
不需要将对象literal(obj)视为json对象.要获得必要的信息,obj可以像其他ast节点一样递归访问.它将允许支持任意javascript代码(可以解析slimit).
小智 6
这样的事情可能会起作用:
import re
HTML = """
<html>
<head>
...
<script type= "text/javascript">
window.blog.data = {"activity":
{"type":"read"}
};
...
</script>
</head>
<body>
...
</body>
</html>
"""
JSON = re.compile('window.blog.data = ({.*?});', re.DOTALL)
matches = JSON.search(HTML)
print matches.group(1)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
22912 次 |
| 最近记录: |