roo*_*oot 3 python dom google-chrome
使用 Chrome DevTools,您可以查看页面的 DOM 树。有没有办法使用 python 访问并拉出该树?
我发现最好的方法是使用selenium.webdriver:
import selenium.webdriver as webdriver
import lxml.html as lh
import lxml.html.clean as clean
browser = webdriver.Chrome() # Get local session of Chrome
browser.get("http://www.webpage.com") # Load page
content=browser.page_source
cleaner=clean.Cleaner()
content=cleaner.clean_html(content)
doc=lh.fromstring(content)
Run Code Online (Sandbox Code Playgroud)
doc 获取 DOM 为lxml.html.HtmlElement