谷歌最近宣布了Clould ML,https: //cloud.google.com/ml/,这非常有用.但是,一个限制是Tensorflow程序的输入/输出应该支持gs://.
如果我们使用所有tensorflow APIS来读/写文件,它应该没问题,因为这些API支持gs://.
但是,如果我们使用本机文件IO API open,它不起作用,因为它们不理解gs://
例如:
with open(vocab_file, 'wb') as f:
cPickle.dump(self.words, f)
Run Code Online (Sandbox Code Playgroud)
此代码不适用于Google Cloud ML.
但是,将所有本机文件IO API修改为tensorflow API或Google Storage Python API实际上非常繁琐.有没有简单的方法来做到这一点?gs://在本机文件IO之上支持谷歌存储系统的任何包装器?
正如这里建议的那样,Pickled scipy稀疏矩阵作为输入数据?,也许我们可以使用file_io.read_file_to_string('gs://...'),但仍然需要重要的代码修改.
我正在尝试在 Google Cloud ML 上部署训练脚本。当然,我已经将我的数据集(CSV 文件)上传到了 GCS 的存储桶中。
我曾经使用 read_csv 从 Pandas 导入我的数据,但它似乎不适用于 GCS 路径。
我应该如何进行(我想继续使用熊猫)?
import pandas as pd
data = pd.read_csv("gs://bucket/folder/file.csv")
Run Code Online (Sandbox Code Playgroud)
输出 :
ERROR 2018-02-01 18:43:34 +0100 master-replica-0 IOError: File gs://bucket/folder/file.csv does not exist
Run Code Online (Sandbox Code Playgroud)