如何使用Python从网页的检查元素获取数据

use*_*999 3 html python extract

我想使用Python从inspect元素获取数据。我可以使用BeautifulSoup下载源代码,但是现在我需要来自网页检查元素的文本。如果您能建议我该怎么做,我将不胜感激。

编辑:通过检查元素,我的意思是,在Google Chrome中,右键单击会为我们提供一个名为“检查元素”的选项,该选项具有与该特定页面的每个元素相关的代码。我想提取该代码/仅提取其文本字符串。

Jas*_*n S 5

如果要以运行Javascript的方式从Python自动获取网页,则应查看Selenium。它可以自动驱动Web浏览器(即使是无头Web浏览器,例如PhantomJS,因此也不必打开窗口)。

为了获取HTML,您需要评估一些javascript。简单的示例代码,可以更改以适合:

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get("http://google.com")

# This will get the initial html - before javascript
html1 = driver.page_source

# This will get the html after on-load javascript
html2 = driver.execute_script("return document.documentElement.innerHTML;")
Run Code Online (Sandbox Code Playgroud)

注意1:如果您想要一个或多个特定元素,则实际上有两个选项-解析Python中的HTML,或者编写更特定的JavaScript以返回所需内容。

注意2:如果您实际上需要Chrome的工具中的特定信息(而不仅仅是动态生成的HTML),则需要一种与Chrome本身挂钩的方法。没办法解决。