AWS S3的Sklearn Joblib加载功能IO错误

Question

AWS S3的Sklearn Joblib加载功能IO错误

Jas*_*ine 4 python amazon-s3 pickle scikit-learn joblib

我正在尝试从sklearn-learn加载我的分类器的pkl转储。

对于我的对象，joblib转储的压缩效果比cPickle转储的压缩效果好得多，因此我希望坚持使用它。但是，尝试从AWS S3读取对象时出现错误。

情况：

本地托管的PKL对象：pickle.load有效，joblib.load有效
使用应用程序将Pkl对象推送到Heroku（从静态文件夹加载）：pickle.load有效，joblib.load有效
将pkl对象推送到S3：pickle.load有效，joblib.load返回IOError。（通过heroku应用进行测试，并通过本地脚本进行测试）

请注意，joblib和pickle的pkl对象是使用各自方法转储的不同对象。（即joblib仅加载joblib.dump（obj），而pickle仅加载cPickle.dump（obj）。

Joblib vs cPickle代码

# case 2, this works for joblib, object pushed to heroku
resources_dir = os.getcwd() + "/static/res/" # main resource directory
input = joblib.load(resources_dir + 'classifier.pkl')

# case 3, this does not work for joblib, object hosted on s3
aws_app_assets = "https://%s.s3.amazonaws.com/static/res/" % keys.AWS_BUCKET_NAME
classifier_url_s3 = aws_app_assets + 'classifier.pkl'

# does not work with raw url, IO Error
classifier = joblib.load(classifier_url_s3)

# urrllib2, can't open instance
# TypeError: coercing to Unicode: need string or buffer, instance found
req = urllib2.Request(url=classifier_url_s3)
f = urllib2.urlopen(req)
classifier = joblib.load(urllib2.urlopen(classifier_url_s3))

# but works with a cPickle object hosted on S3
classifier = cPickle.load(urllib2.urlopen(classifier_url_s3))

Run Code Online (Sandbox Code Playgroud)

我的应用程序在情况2下可以正常工作，但是由于加载速度很慢，我想尝试将所有静态文件（尤其是这些pickle dumps）推送到S3。Joblib加载与Pickle加载的方式之间固有的差异会导致此错误吗？

这是我的错误

File "/usr/local/lib/python2.7/site-packages/sklearn/externals/joblib/numpy_pickle.py", line 409, in load
with open(filename, 'rb') as file_handle:
IOError: [Errno 2] No such file or directory: classifier url on s3
[Finished in 0.3s with exit code 1]

Run Code Online (Sandbox Code Playgroud)

这不是权限问题，因为我已将s3上的所有对象公开进行测试，并且pickle.dump对象可以正常加载。如果我直接将URL输入浏览器，joblib.dump对象也会下载

我可能会完全错过一些东西。

谢谢。

Answer 1

vol*_*myr 5

joblib.load（）需要文件系统上存在的文件名。

Signature: joblib.load(filename, mmap_mode=None)
Parameters
-----------
filename: string
    The name of the file from which to load the object

Run Code Online (Sandbox Code Playgroud)

而且，即使您不介意腌制的模型可以被世界使用，将所有资源公开都可能不是其他资产的好主意。

首先将对象从S3复制到工作人员的本地文件系统非常简单：

from boto.s3.connection import S3Connection
from sklearn.externals import joblib
import os

s3_connection = S3Connection(AWS_ACCESS_KEY_ID, AWS_SECRET_ACCESS_KEY)
s3_bucket = s3_connection.get_bucket(keys.AWS_BUCKET_NAME)
local_file = '/tmp/classifier.pkl'
s3_bucket.get_key(aws_app_assets + 'classifier.pkl').get_contents_to_filename(local_file)
clf = joblib.load(local_file)
os.remove(local_file)

Run Code Online (Sandbox Code Playgroud)

希望这会有所帮助。

PS可以使用这种方法来腌制整个sklearn管道。这也包括特征插补。只是要注意训练和预测之间库的版本冲突。

归档时间：	10 年，5 月前
查看次数：	5142 次
最近记录：	6 年，7 月前