如何使用Python从网页的检查元素获取数据

Question

如何使用Python从网页的检查元素获取数据

use*_*999 3 html python extract

我想使用Python从inspect元素获取数据。我可以使用BeautifulSoup下载源代码，但是现在我需要来自网页检查元素的文本。如果您能建议我该怎么做，我将不胜感激。

编辑：通过检查元素，我的意思是，在Google Chrome中，右键单击会为我们提供一个名为“检查元素”的选项，该选项具有与该特定页面的每个元素相关的代码。我想提取该代码/仅提取其文本字符串。

Answer 1

Jas*_*n S 5

如果要以运行Javascript的方式从Python自动获取网页，则应查看Selenium。它可以自动驱动Web浏览器（即使是无头Web浏览器，例如PhantomJS，因此也不必打开窗口）。

为了获取HTML，您需要评估一些javascript。简单的示例代码，可以更改以适合：

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get("http://google.com")

# This will get the initial html - before javascript
html1 = driver.page_source

# This will get the html after on-load javascript
html2 = driver.execute_script("return document.documentElement.innerHTML;")

Run Code Online (Sandbox Code Playgroud)

注意1：如果您想要一个或多个特定元素，则实际上有两个选项-解析Python中的HTML，或者编写更特定的JavaScript以返回所需内容。

注意2：如果您实际上需要Chrome的工具中的特定信息（而不仅仅是动态生成的HTML），则需要一种与Chrome本身挂钩的方法。没办法解决。

归档时间：	11 年，9 月前
查看次数：	20694 次
最近记录：	9 年，1 月前