使用Selenium和Python提取网站文本

Question

使用Selenium和Python提取网站文本

kam*_*mbi 3 selenium web-scraping phantomjs

我想提取特定网页中的所有文本。

在JavaScript中，代码如下所示：

var webPage = require('webpage');
var page = webPage.create();

page.open('http://phantomjs.org', function (status) {
  console.log('Stripped down page text:\n' + page.plainText);
  phantom.exit();
});

Run Code Online (Sandbox Code Playgroud)

如何在Python中运行page.plainText？

谢谢。

Answer 1

Dav*_*tti 5

如果要使用Selenium进行此操作，则必须在调用getText（）之后选择“ top”元素。

例如，在Python中：

driver = webdriver.PhantomJS(executable_path=r'pathTo/phantomjs')
driver.get("https://en.wikipedia.org/wiki/Selenium_(software)")
el=driver.find_element_by_tag_name("body")
print(el.text)
driver.close()

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年前
查看次数：	3843 次
最近记录：	6 年，9 月前