sam*_*sam 36 python selenium selenium-webdriver
我正在研究python和selenium.我想使用selenium从点击事件下载文件.我写了以下代码.
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.keys import Keys
browser = webdriver.Firefox()
browser.get("http://www.drugcite.com/?q=ACTIMMUNE")
browser.close()
Run Code Online (Sandbox Code Playgroud)
我想从给定网址名称为"导出数据"的链接下载这两个文件.我如何才能实现它,因为它只适用于点击事件?
fal*_*tru 59
找到使用的链接find_element(s)_by_*
,然后调用click
方法.
from selenium import webdriver
# To prevent download dialog
profile = webdriver.FirefoxProfile()
profile.set_preference('browser.download.folderList', 2) # custom location
profile.set_preference('browser.download.manager.showWhenStarting', False)
profile.set_preference('browser.download.dir', '/tmp')
profile.set_preference('browser.helperApps.neverAsk.saveToDisk', 'text/csv')
browser = webdriver.Firefox(profile)
browser.get("http://www.drugcite.com/?q=ACTIMMUNE")
browser.find_element_by_id('exportpt').click()
browser.find_element_by_id('exporthlgt').click()
Run Code Online (Sandbox Code Playgroud)
添加了配置文件操作代码以防止下载对话
Jos*_*rns 11
我承认这个解决方案比Firefox Profile saveToDisk更加"hacky",但它适用于Chrome和Firefox,并且不依赖于可能随时更改的特定于浏览器的功能.如果不出意外,也许这会让人对如何解决未来的挑战有不同的看法.
先决条件:确保安装了selenium和pyvirtualdisplay ...
sudo pip install selenium pyvirtualdisplay
sudo pip3 install selenium pyvirtualdisplay
魔法
import pyvirtualdisplay
import selenium
import selenium.webdriver
import time
import base64
import json
root_url = 'https://www.google.com'
download_url = 'https://www.google.com/images/branding/googlelogo/2x/googlelogo_color_272x92dp.png'
print('Opening virtual display')
display = pyvirtualdisplay.Display(visible=0, size=(1280, 1024,))
display.start()
print('\tDone')
print('Opening web browser')
driver = selenium.webdriver.Firefox()
#driver = selenium.webdriver.Chrome() # Alternately, give Chrome a try
print('\tDone')
print('Retrieving initial web page')
driver.get(root_url)
print('\tDone')
print('Injecting retrieval code into web page')
driver.execute_script("""
window.file_contents = null;
var xhr = new XMLHttpRequest();
xhr.responseType = 'blob';
xhr.onload = function() {
var reader = new FileReader();
reader.onloadend = function() {
window.file_contents = reader.result;
};
reader.readAsDataURL(xhr.response);
};
xhr.open('GET', %(download_url)s);
xhr.send();
""".replace('\r\n', ' ').replace('\r', ' ').replace('\n', ' ') % {
'download_url': json.dumps(download_url),
})
print('Looping until file is retrieved')
downloaded_file = None
while downloaded_file is None:
# Returns the file retrieved base64 encoded (perfect for downloading binary)
downloaded_file = driver.execute_script('return (window.file_contents !== null ? window.file_contents.split(\',\')[1] : null);')
print(downloaded_file)
if not downloaded_file:
print('\tNot downloaded, waiting...')
time.sleep(0.5)
print('\tDone')
print('Writing file to disk')
fp = open('google-logo.png', 'wb')
fp.write(base64.b64decode(downloaded_file))
fp.close()
print('\tDone')
driver.close() # close web browser, or it'll persist after python exits.
display.popen.kill() # close virtual display, or it'll persist after python exits.
Run Code Online (Sandbox Code Playgroud)
释
我们首先在我们定位文件下载的域上加载网址.这允许我们在该域上执行AJAX请求,而不会遇到跨站点脚本问题.
接下来,我们将一些javascript注入DOM,从而触发AJAX请求.一旦AJAX请求返回响应,我们将获取响应并将其加载到FileReader对象中.从那里我们可以通过调用readAsDataUrl()来提取文件的base64编码内容.然后我们将base64编码的内容添加到window
一个可以访问的变量中.
最后,因为AJAX请求是异步的,所以我们输入Python while循环,等待将内容附加到窗口.一旦附加,我们解码从窗口检索的base64内容并将其保存到文件中.
此解决方案应适用于Selenium支持的所有现代浏览器,无论是文本还是二进制,以及所有mime类型.
替代方法
虽然我没有对此进行测试,但Selenium确实让您能够等到DOM中存在元素.您可以在DOM中创建具有特定ID的元素,并使用该元素的绑定作为检索下载文件的触发器,而不是循环直到填充全局可访问变量.
归档时间: |
|
查看次数: |
62762 次 |
最近记录: |