Cer*_*rin 3 python selenium selenium-rc
我有一个网站包含以下形式的元素:
<td id="subject_23432423">content I want to read</td>
Run Code Online (Sandbox Code Playgroud)
我如何使用Selenium RC(特别是Python绑定)来读取所有这些元素的内容?我已经完成了所有命令,虽然有很多选项可以找到单个元素,但是没有一个命令可以处理多个匹配的列表.例如,我可以使用以下方法找到特定元素的内容:
content = sel.get_text("td[@id='subject_23432423']")
Run Code Online (Sandbox Code Playgroud)
但这假设我已经知道了id,我没有,因为它是动态生成的.
我要做的是以下技术之一
count = sel.get_xpath_count("xpath=//td[starts-with(@id,'subject_')]")
someArray = []
for i in count:
someArray[i] = sel.get_text("xpath=//td[starts-with(@id,'subject_')][" + i + "]")
Run Code Online (Sandbox Code Playgroud)
或者使用BeautifulSoup或lxml更有效的方法
html = sel.get_html_source()
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
#use beautifulsoup to do what you want
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
7940 次 |
| 最近记录: |