假设一个网页中的所有作者/用户名元素都是这样的...我如何使用python和Selenium到达href部分?users = browser.find_elements_by_xpath(?)
<span>
Author:
<a href="/account/57608-bob">
bob
</a>
</span>
Run Code Online (Sandbox Code Playgroud)
谢谢.
Firefox在我的计算机上是最新的,但是当我使用selenium时,它会说我需要或应该更新,从而弄乱了我的程序.最终这个窗口可以阻止我的程序工作..有什么办法可以阻止它吗?谢谢.
编辑:我运行了python profiler和两个最耗时的东西(这是在我决定注释掉webbrowser部分和Firefox部分代码之后,因为我知道它们将是最慢的部分......),我程序中最慢的部分是re.findall和re.compile(len)和(附加到列表).
我不知道是否应该立即在这里发布我的所有代码,因为我在我的程序上工作非常努力(即使它不太好),所以现在我只想问......怎么样如何让我的Python程序更快?
我现在有3个嫌犯,因为它太慢了:
也许我的电脑很慢
也许我的互联网太慢了(有时我的程序必须下载网页的html,然后通过html搜索特定的文本)
我的代码很慢(可能有太多循环?还有其他什么?我是新手,所以我不知道!)
如果有人能给我建议,我将非常感激!
谢谢!
编辑:
我认为我的代码使用了很多循环...另外,对于程序工作,你必须登录到这个网站:http://www.locationary.com/
from urllib import urlopen
from gzip import GzipFile
from cStringIO import StringIO
import re
import urllib
import urllib2
import webbrowser
import time
from difflib import SequenceMatcher
import os
def download(url):
s = urlopen(url).read()
if s[:2] == '\x1f\x8b': # assume it's gzipped data
with GzipFile(mode='rb', fileobj=StringIO(s)) as ifh:
s = ifh.read()
return s
for t in range(3,39):
print t
s = download('http://www.locationary.com/place/en/US/Utah/Provo-page' + …Run Code Online (Sandbox Code Playgroud) 我正在使用python来自动化selenium/firefox.我的代码将加载大约85,000个不同的网页.我知道这将花费很长时间,但如果可以做到,我不介意它比目前更快.现在一个网页加载可以在5到10秒的范围内.我知道它可能是网站和/或我的互联网连接,但我想知道是否有一种方法可以加载重要的东西,以便它会更快.我之前在浏览器中看过这个...没有加载图像和javascript等我想知道这是否可以在硒中使用firefox.谢谢.