使用boto3和回调跟踪S3文件的下载进度

Question

使用boto3和回调跟踪S3文件的下载进度

Ksh*_*wah 8 python callback amazon-s3 boto3

我正在尝试使用boto3从S3下载文本文件.

这是我写的.

class ProgressPercentage(object):
    def __init__(self, filename):
        self._filename = filename
        self._size = float(os.path.getsize(filename))
        self._seen_so_far = 0
        self._lock = threading.Lock()

    def __call__(self, bytes_amount):
        # To simplify we'll assume this is hooked up
        # to a single filename.
        with self._lock:
            self._seen_so_far += bytes_amount
            percentage = round((self._seen_so_far / self._size) * 100,2)
            LoggingFile('{} is the file name. {} out of {} done. The percentage completed is {} %'.format(str(self._filename), str(self._seen_so_far), str(self._size),str(percentage)))
            sys.stdout.flush()

Run Code Online (Sandbox Code Playgroud)

而我正在使用它

transfer.download_file(BUCKET_NAME,FILE_NAME,'{}{}'.format(LOCAL_PATH_TEMP , FILE_NAME),callback = ProgressPercentage(LOCAL_PATH_TEMP + FILE_NAME))

Run Code Online (Sandbox Code Playgroud)

这给了我一个错误,该文件夹中没有该文件.显然,当我已经在同一文件夹中有一个具有此名称的文件时,它可以工作,但是当我下载一个新文件时,它会出错.

我需要做出哪些更正？

Answer 1

mar*_*cab 17

这是使用 tqdm 的另一个简单的自定义实现：

\n

from tqdm import tqdm\nimport boto3\n\ndef s3_download(s3_bucket, s3_object_key, local_file_name, s3_client=boto3.client('s3')):\n    meta_data = s3_client.head_object(Bucket=s3_bucket, Key=s3_object_key)\n    total_length = int(meta_data.get('ContentLength', 0))\n    with tqdm(total=total_length,  desc=f'source: s3://{s3_bucket}/{s3_object_key}', bar_format="{percentage:.1f}%|{bar:25} | {rate_fmt} | {desc}",  unit='B', unit_scale=True, unit_divisor=1024) as pbar:\n        with open(local_file_name, 'wb') as f:\n            s3_client.download_fileobj(s3_bucket, s3_object_key, f, Callback=pbar.update)\n

Run Code Online (Sandbox Code Playgroud)\n

用法：

\n

s3_download(bucket, key, local_file_name)\n

Run Code Online (Sandbox Code Playgroud)\n

输出：

\n

100.0%|\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88 | 12.9MB/s | source: s3://bucket/key\n

Run Code Online (Sandbox Code Playgroud)\n

Answer 2

Gle*_*son 9

这是我的实现。没有其他依赖，修改进度回调函数以显示您想要的任何内容。

import sys
import boto3

s3_client = boto3.client('s3')

def download(local_file_name, s3_bucket, s3_object_key):

    meta_data = s3_client.head_object(Bucket=s3_bucket, Key=s3_object_key)
    total_length = int(meta_data.get('ContentLength', 0))
    downloaded = 0

    def progress(chunk):
        nonlocal downloaded
        downloaded += chunk
        done = int(50 * downloaded / total_length)
        sys.stdout.write("\r[%s%s]" % ('=' * done, ' ' * (50-done)) )
        sys.stdout.flush()

    print(f'Downloading {s3_object_key}')
    with open(local_file_name, 'wb') as f:
        s3_client.download_fileobj(s3_bucket, s3_object_key, f, Callback=progress)

Run Code Online (Sandbox Code Playgroud)

例如

local_file_name = 'test.csv'
s3_bucket = 'my-bucket'
s3_object_key = 'industry/test.csv'

download(local_file_name, s3_bucket, s3_object_key)

Run Code Online (Sandbox Code Playgroud)

演示：

测试boto3>=1.14.19，python>=3.7

Answer 3

小智 7

callback = ProgressPercentage(LOCAL_PATH_TEMP + FILE_NAME))创建一个ProgressPercentage对象，运行其__init__方法，然后将该对象传递callback给该download_file方法。这意味着该__init__方法在 download_file开始之前运行。

在该__init__方法中，您尝试读取要下载到的本地文件的大小，这会引发异常，因为该文件不存在，因为下载尚未开始。如果您已经下载了文件，那么就没有问题，因为存在本地副本并且可以读取其大小。

当然，这仅仅是您所看到的异常的原因。您正在使用该_size属性作为下载进度的最大值。但是，您尝试使用本地文件的大小。在文件完全下载之前，本地文件系统不知道文件有多大，它仅知道当前占用了多少空间。这意味着在您下载文件时，文件将逐渐变大，直到达到其完整大小。因此，将本地文件的大小视为下载的最大大小并没有任何意义。如果您已经下载了文件，它可能会起作用，但这不是很有用。

解决您的问题的方法是检查要下载的文件的大小，而不是本地副本的大小。这样可以确保您获得要下载的文件的实际大小，并且该文件存在（因为如果没有下载，则无法下载）。您可以通过获取远程文件的大小与做head_object如下

class ProgressPercentage(object):
    def __init__(self, client, bucket, filename):
        # ... everything else the same
        self._size = client.head_object(Bucket=bucket, Key=filename).ContentLength

    # ...

# If you still have the client object you could pass that directly 
# instead of transfer._manager._client
progress = ProgressPercentage(transfer._manager._client, BUCKET_NAME, FILE_NAME)
transfer.download_file(..., callback=progress)

Run Code Online (Sandbox Code Playgroud)

最后一点，尽管您从Boto3文档中获得了代码，但该代码不起作用，因为它是用于文件上传的。在这种情况下，本地文件是源文件，并且可以保证其存在。

太棒了，这对我有用！只需要做一个小改动。head_object 返回一个字典。`client.head_object(Bucket=bucket, Key=filename).get('ContentLength')` (2认同)

Answer 4

Ada*_*icz 7

progressbar与安装pip3 install progressbar

import boto3, os
import progressbar

bucket_name = "<your-s3-bucket-name>"
folder_name = "<your-directory-name-locally>"
file_name = "<your-filename-locally>"
path = folder_name + "/" + file_name
s3 = boto3.client('s3', aws_access_key_id="<your_aws_access_key_id>", aws_secret_access_key="<your_aws_secret_access_key>")

statinfo = os.stat(file_name)

up_progress = progressbar.progressbar.ProgressBar(maxval=statinfo.st_size)

up_progress.start()

def upload_progress(chunk):
    up_progress.update(up_progress.currval + chunk)

s3.upload_file(file_name, bucket_name, path, Callback=upload_progress)

up_progress.finish()

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，1 月前
查看次数：	8643 次
最近记录：	7 年前