从FTP python中读取缓冲区中的文件

sma*_*ape 9 python ftp stream ftplib

我试图从FTP服务器读取文件.该文件是一个.gz文件.我想知道在套接字打开时是否可以对此文件执行操作.我尝试按照两个StackOverflow问题中提到的内容来阅读文件而无需写入磁盘从FTP读取文件而不下载但未成功.

我知道如何在下载的文件中提取数据/工作,但我不确定我是否可以动态执行.有没有办法连接到网站,在缓冲区中获取数据,可能做一些数据提取和退出?

尝试StringIO时出现错误:

>>> from ftplib import FTP
>>> from StringIO import StringIO
>>> ftp = FTP('ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/PMC-ids.csv.gz')

Traceback (most recent call last):
File "<pyshell#2>", line 1, in <module>
ftp = FTP('ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/PMC-ids.csv.gz')
File "C:\Python27\lib\ftplib.py", line 117, in __init__
self.connect(host)
File "C:\Python27\lib\ftplib.py", line 132, in connect
self.sock = socket.create_connection((self.host, self.port), self.timeout)
File "C:\Python27\lib\socket.py", line 553, in create_connection
for res in getaddrinfo(host, port, 0, SOCK_STREAM):
gaierror: [Errno 11004] getaddrinfo failed
Run Code Online (Sandbox Code Playgroud)

我只需要知道如何将数据放入某个变量并在其上循环,直到读取FTP文件为止.

感谢您的时间和帮助.谢谢!

Kyl*_*ley 24

确保首先登录到ftp服务器.在此之后,使用retrbinary它以二进制模式拉取文件.它在文件的每个块上使用回调.您可以使用它将其加载到字符串中.

from ftplib import FTP
ftp = FTP('ftp.ncbi.nlm.nih.gov')
ftp.login() # Username: anonymous password: anonymous@

# Setup a cheap way to catch the data (could use StringIO too)
data = []
def handle_binary(more_data):
    data.append(more_data)

resp = ftp.retrbinary("RETR pub/pmc/PMC-ids.csv.gz", callback=handle_binary)
data = "".join(data)
Run Code Online (Sandbox Code Playgroud)

加分点:我们解决这个问题时我们如何解压缩它?

简易模式,使用上面的数据字符串

import gzip
import StringIO
zippy = gzip.GzipFile(fileobj=StringIO.StringIO(data))
uncompressed_data = zippy.read()
Run Code Online (Sandbox Code Playgroud)

更好一点,完整的解决方案:

from ftplib import FTP
import gzip
import StringIO

ftp = FTP('ftp.ncbi.nlm.nih.gov')
ftp.login() # Username: anonymous password: anonymous@

sio = StringIO.StringIO()
def handle_binary(more_data):
    sio.write(more_data)

resp = ftp.retrbinary("RETR pub/pmc/PMC-ids.csv.gz", callback=handle_binary)
sio.seek(0) # Go back to the start
zippy = gzip.GzipFile(fileobj=sio)

uncompressed = zippy.read()
Run Code Online (Sandbox Code Playgroud)

实际上,在运行中解压缩会好得多,但我没有看到使用内置库(至少不容易)的方法.

  • 我不知道为什么,但是要用BytesIO替换StringIO来使用Python 3.4 (2认同)

nic*_*kie 5

我可以通过两种简单的方法来使用FTP下载文件并将其存储在本地:

  1. 使用ftplib:

    from ftplib import FTP
    
    ftp = FTP('ftp.ncbi.nlm.nih.gov')
    ftp.login()
    ftp.cwd('pub/pmc')
    ftp.retrbinary('RETR PMC-ids.csv.gz', open('PMC-ids.csv.gz', 'wb').write)
    ftp.quit()
    
    Run Code Online (Sandbox Code Playgroud)
  2. 运用 urllib

    from urllib import urlretrieve
    
    urlretrieve("ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/PMC-ids.csv.gz", "PMC-ids.csv.gz")
    
    Run Code Online (Sandbox Code Playgroud)

如果您不想下载并将其存储到文件中,但是您希望逐渐处理它,我建议使用urllib2:

from urllib2 import urlopen

u = urlopen("ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/readme.txt")

for line in u:
   print line
Run Code Online (Sandbox Code Playgroud)

它逐行打印您的文件.