use*_*999 3 html python extract
我想使用Python从inspect元素获取数据。我可以使用BeautifulSoup下载源代码,但是现在我需要来自网页检查元素的文本。如果您能建议我该怎么做,我将不胜感激。
编辑:通过检查元素,我的意思是,在Google Chrome中,右键单击会为我们提供一个名为“检查元素”的选项,该选项具有与该特定页面的每个元素相关的代码。我想提取该代码/仅提取其文本字符串。
如果要以运行Javascript的方式从Python自动获取网页,则应查看Selenium。它可以自动驱动Web浏览器(即使是无头Web浏览器,例如PhantomJS,因此也不必打开窗口)。
为了获取HTML,您需要评估一些javascript。简单的示例代码,可以更改以适合:
from selenium import webdriver
driver = webdriver.PhantomJS()
driver.get("http://google.com")
# This will get the initial html - before javascript
html1 = driver.page_source
# This will get the html after on-load javascript
html2 = driver.execute_script("return document.documentElement.innerHTML;")
Run Code Online (Sandbox Code Playgroud)
注意1:如果您想要一个或多个特定元素,则实际上有两个选项-解析Python中的HTML,或者编写更特定的JavaScript以返回所需内容。
注意2:如果您实际上需要Chrome的工具中的特定信息(而不仅仅是动态生成的HTML),则需要一种与Chrome本身挂钩的方法。没办法解决。