如何创建任何 AWS Lambda Python 层?(XGBoost 的使用示例)

Ale*_*lex 7 python package-management amazon-web-services aws-lambda xgboost

我在为 xgboost 库创建 lambda 层时遇到问题。我在跑:

我从这里 ( https://github.com/alexeybutyrev/aws_lambda_xgboost )抓取 xgboost 的 zip 和它的依赖项并将其加载到一个层中。当我尝试测试我的 lambda 时,我收到此错误:

Unable to import module 'lambda_function': No module named 'xgboost.core'

看起来__init__.py正在尝试通过引用 core.pyfrom .core import <stuff>

有没有人在使用 AWS Lambda 之前遇到过这个错误?

Mig*_*ejo 5

编辑:正如@Marcin 所说,提供的第一个答案适用于 262 MB 以下的包。

A. Lambda 层大小限制内的 Python 包

您还可以使用 AWS sam cli 和 Docker(请参阅此链接安装 SAM cli)来在容器内构建包。基本上,您使用Pythonas 运行时初始化默认模板,然后指定requirements.txt文件下的包。我发现它比你提到的文章更容易。如果您想考虑将来使用它们,我会让您采取步骤。

1. 初始化一个默认的 SAM 模板

在要保留项目的任何文件夹下,您可以键入

sam init
Run Code Online (Sandbox Code Playgroud)

这将提示一系列问题,为了快速设置,我们将选择如下快速启动模板

1 - AWS Quick Start Templates

2 - Python 3.8

Project name [sam-app]: your_project_name

1 - Hello World Example
Run Code Online (Sandbox Code Playgroud)

通过选择Hello World Example它会生成一个默认的lambda function一个requirements.txt文件。现在,我们将使用您想要的包名称进行编辑,在这种情况下xgboost

2. 指定要安装的包

cd your_project_name
code hello_world/requirements.txt
Run Code Online (Sandbox Code Playgroud)

因为我有 Visual Studio Code 作为编辑器,所以这将打开它上面的文件。现在,我可以指定xgboost

your_python_package
Run Code Online (Sandbox Code Playgroud)

这就是安装 Docker 的原因。一些软件包依赖于C++. 因此,建议在容器内构建(Windows 上的情况)。现在,移动到文件所在的template.yaml文件夹。然后,键入

sam build -u
Run Code Online (Sandbox Code Playgroud)

3. 压缩包

有些文件您不想包含在 lambda 层中,因为我们只想保留 Python 库。因此,您可以删除以下文件

rm .aws-sam/build/HelloWorldFunction/app.py
rm .aws-sam/build/HelloWorldFunction/__init__.py
rm .aws-sam/build/HelloWorldFunction/requirements.txt
Run Code Online (Sandbox Code Playgroud)

然后压缩文件夹的剩余内容。

cp -r .aws-sam/build/HelloWorldFunction/ python/
zip -r my_layer.zip python/
Run Code Online (Sandbox Code Playgroud)

我们python/根据文档将图层放置在文件夹中 在 Windows 系统上,zip命令应替换为 Compress-Archive my_layer/ my_layer.zip.

4. 将您的层上传到 AWS

在 AWS 上,转到Lambda,然后选择LayersCreate Layer。现在,您可以上传您的.zip文件,如下图所示

在此处输入图片说明

请注意,对于超过 50 MB 的 zip 文件,您应该将.zip文件上传到 s3 存储桶并提供路径,例如https://s3:amazonaws.com//mybucket/my_layer.zip.

B. 超过 Lambda 层限制的 Python 包

xgboost其自己的包是300多MB,并会引发以下错误

在此处输入图片说明

正如@Marcin 友好指出的那样,使用 SAM cli 的先前方法不会直接适用于超出限制的 Python 层。github上有一个未解决的问题,用于在运行时指定自定义 docker 映像sam build -u以及重新标记默认lambda/lambci映像的可能解决方案。

那么,我们如何才能度过这一关呢?已经有一些有用的资源,我只想指出。

  • 首先,@Alex 作为解决方案的Medium文章遵循这个repo 代码
  • 其次,alexeybutyrev方法通过应用strip命令来减少库大小。可以在 github repo下找到这种方法,提供了说明。

编辑(2020 年 12 月)

本月,AWS 发布了对 AWS Lambda 的容器映像支持。遵循项目的下一个树结构

Project/
|-- app/
|   |-- app.py
|   |-- requirements.txt
|   |-- xgb_trained.bin
|-- Dockerfile
 
Run Code Online (Sandbox Code Playgroud)

您可以使用以下 Docker 映像部署 XGBoost 模型。请按照此repo说明获取详细说明。

# Dockerfile based on https://docs.aws.amazon.com/lambda/latest/dg/images-create.html

# Define global args
ARG FUNCTION_DIR="/function"
ARG RUNTIME_VERSION="3.6"

# Choose buster image
FROM python:${RUNTIME_VERSION}-buster as base-image

# Install aws-lambda-cpp build dependencies
RUN apt-get update && \
  apt-get install -y \
  g++ \
  make \
  cmake \
  unzip \
  libcurl4-openssl-dev \
  git


# Include global arg in this stage of the build
ARG FUNCTION_DIR
# Create function directory
RUN mkdir -p ${FUNCTION_DIR}

# Copy function code
COPY app/* ${FUNCTION_DIR}/

# Install python dependencies and runtime interface client
RUN python${RUNTIME_VERSION} -m pip install \
                   --target ${FUNCTION_DIR} \
                   --no-cache-dir \
                   awslambdaric \
                   -r ${FUNCTION_DIR}/requirements.txt

# Install xgboost from source
RUN git clone --recursive https://github.com/dmlc/xgboost
RUN cd xgboost; make -j4; cd python-package; python${RUNTIME_VERSION} setup.py install; cd;

# Multi-stage build: grab a fresh copy of the base image
FROM base-image

# Include global arg in this stage of the build
ARG FUNCTION_DIR

# Set working directory to function root directory
WORKDIR ${FUNCTION_DIR}

# Copy in the build image dependencies
COPY --from=base-image ${FUNCTION_DIR} ${FUNCTION_DIR}

ENTRYPOINT [ "/usr/local/bin/python", "-m", "awslambdaric" ]

CMD [ "app.handler" ]
Run Code Online (Sandbox Code Playgroud)

  • @Marcin,你是对的,单个 XGBoost zip 超过 300 MB。此方法可直接处理小于 50 MB 的文件,并在 s3 上处理小于 260 MB 的文件。我会编辑答案以考虑这些情况和 xgboost 情况。感谢您的澄清! (2认同)