使用 Sklearn 实现算法模型持久化

Question

使用 Sklearn 实现算法模型持久化

Nic*_*ick 3 python machine-learning scikit-learn joblib

我对Algorithmia还很陌生，但我已经使用了一些 scikit-learn，并且在我用 joblib 对其进行训练后，我知道如何坚持我的机器学习模型：

from sklearn.externals joblib

model = RandomForestRegressor()
# Train the model, etc
joblib.dump(model, "prediction/model/model.pkl")

Run Code Online (Sandbox Code Playgroud)

现在我想托管我的 ML 模型并使用 Algorithmia 将其称为服务，但我不知道如何读回模型。我在 Algorithmia 中创建了一个名为“testcollection”的集合，其中包含一个名为“model.pkl”的文件，它是 joblib.dump 调用的结果。根据文档，这意味着我的文件应该位于

数据：//（用户名）/testcollection/model.pkl

我想使用 joblib.load 从文件中读取该模型。这是我目前在 Algorithmia 中的算法：

import Algorithmia

def apply(input):
    client = Algorithmia.client()
    f = client.file("data://(username)/testcollection/model.pkl")
    print(f.path)
    print(f.url)
    print(f.getName())
    model = joblib.load(f.url) # Or f.path, both don't work
    return "empty"

Run Code Online (Sandbox Code Playgroud)

这是输出：

(username)/testcollection/model.pkl
/v1/data/(username)/testcollection/model.pkl
model.pkl

Run Code Online (Sandbox Code Playgroud)

它在 joblib.load 行出错，给出“没有这样的文件或目录（我放入的任何路径）”

这是我在调用 joblib.load 时尝试过的所有路径/网址：

/v1/data/（用户名）/testcollection/model.pkl
数据：//（用户名）/testcollection/model.pkl
（用户名）/testcollection/model.pkl
https://algorithmia.com/v1/data/(username)/testcollection/model.pkl

如何使用 joblib 从文件加载模型？我会以错误的方式解决这个问题吗？

Answer 1

Bes*_*mus 5

有几种方法可以访问 DataAPI 上的数据。

以下是通过 Python 客户端访问文件的 4 种不同方法：

import Algorithmia

client = Algorithmia.client("<YOUR_API_KEY>")

dataFile = client.file("data://<USER_NAME>/<COLLECTION_NAME>/<FILE_NAME>").getFile()

dataText = client.file("data://<USER_NAME>/<COLLECTION_NAME>/<FILE_NAME>").getString()

dataJSON = client.file("data://<USER_NAME>/<COLLECTION_NAME>/<FILE_NAME>").getJson()

dataBytes = client.file("data://<USER_NAME>/<COLLECTION_NAME>/<FILE_NAME>").getBytes()

Run Code Online (Sandbox Code Playgroud)

由于 Sklearn 需要模型文件的路径，因此获取它的最简单方法是通过文件对象（又名 dataFile）。

根据 Python2.7 官方文档，如果创建了open()函数以外的文件对象，则 object 属性name通常对应于文件的路径。

在这种情况下，您需要编写如下内容：

import Algorithmia

def apply(input):

    # You don't need to write your API key if you're editing in the web editor
    client = Algorithmia.client()

    modelFile = client.file("data://(username)/testcollection/model.pkl").getFile()

    modelFilePath = modelFile.name

    model = joblib.load(modelFilePath)

    return "empty"

Run Code Online (Sandbox Code Playgroud)

但是根据Official Sklearn Model Persistence Documentation，您还应该能够只传递类文件对象而不是文件名。

因此，我们可以跳过我们尝试获取文件名的部分，直接传递modelFile对象：

import Algorithmia

def apply(input):

    # You don't need to write your API key if you're editing in the web editor
    client = Algorithmia.client()

    modelFile = client.file("data://(username)/testcollection/model.pkl").getFile()

    model = joblib.load(modelFile)

    return "empty"

Run Code Online (Sandbox Code Playgroud)

编辑：这也是官方算法开发人员中心的一篇文章，讨论了 Scikit-Learn 中的模型持久性。

完全披露者：我在Algorithmia担任算法工程师。

归档时间：	8 年，11 月前
查看次数：	264 次
最近记录：	8 年，11 月前