sfo*_*ney 8 python download urllib2
有没有一种很好的方法来使用python大量下载大量文件?此代码足够快速下载大约100个左右的文件.但我需要下载300,000个文件.显然它们都是非常小的文件(或者我不会下载300,000个:))所以真正的瓶颈似乎是这个循环.有人有想法吗?也许使用MPI或线程?
我只需要忍受瓶颈吗?或者有更快的方式,甚至可能没有使用python?
(为了完整起见,我包含了代码的完整开头)
from __future__ import division
import pandas as pd
import numpy as np
import urllib2
import os
import linecache
#we start with a huge file of urls
data= pd.read_csv("edgar.csv")
datatemp2=data[data['form'].str.contains("14A")]
datatemp3=data[data['form'].str.contains("14C")]
#data2 is the cut-down file
data2=datatemp2.append(datatemp3)
flist=np.array(data2['filename'])
print len(flist)
print flist
###below we have a script to download all of the files in the data2 database
###here you will need to create a new directory named edgar14A14C in your CWD
original=os.getcwd().copy()
os.chdir(str(os.getcwd())+str('/edgar14A14C'))
for i in xrange(len(flist)):
url = "ftp://ftp.sec.gov/"+str(flist[i])
file_name = str(url.split('/')[-1])
u = urllib2.urlopen(url)
f = open(file_name, 'wb')
f.write(u.read())
f.close()
print i
Run Code Online (Sandbox Code Playgroud)
Jam*_*lls 15
多处理的常用模式是创建一个job()接受参数并执行一些潜在的CPU绑定工作的函数.
例如:(根据您的代码)
from multiprocessing import Pool
def job(url):
file_name = str(url.split('/')[-1])
u = urllib2.urlopen(url)
f = open(file_name, 'wb')
f.write(u.read())
f.close()
pool = Pool()
urls = ["ftp://ftp.sec.gov/{0:s}".format(f) for f in flist]
pool.map(job, urls)
Run Code Online (Sandbox Code Playgroud)
这将做很多事情:
job()函数的输入列表.urls到job()并等待所有作业完成.Python multiprocessing.Pool.map将负责将你的输入分配到no.池中的工人.
我为这种工作做的另一件有用的小事是使用这样的进度:
from multiprocessing import Pool
from progress.bar import Bar
def job(input):
# do some work
pool = Pool()
inputs = range(100)
bar = Bar('Processing', max=len(inputs))
for i in pool.imap(job, inputs):
bar.next()
bar.finish()
Run Code Online (Sandbox Code Playgroud)
这可以让您在控制台上获得一个很好的进度条,因为您的工作正在进行中,因此您对进度和eta等有了一些了解.
我还发现请求库在这里非常有用,并且有一套更好的API用于处理Web资源和下载内容.
| 归档时间: |
|
| 查看次数: |
7542 次 |
| 最近记录: |