在开展Udacity深度学习任务时,我遇到了内存问题.我需要切换到云平台.之前我曾使用AWS EC2,但现在我想尝试使用Google Cloud Platform(GCP).我需要至少8GB的内存.我知道如何在本地使用docker但从未在云上尝试过.
google-compute-engine google-cloud-platform tensorflow google-cloud-ml gcp-ai-platform-notebook
我正在寻找设置端到端机器学习管道的最佳方法,并评估数据探索组件选项。
我试图找出谷歌云数据实验室和谷歌云人工智能平台笔记本之间的区别。它们似乎都提供了相似的功能,所以不确定它们为什么都存在,或者一个是否是另一个的新迭代。
如果它们不同,一个比另一个有什么好处?
google-cloud-platform google-cloud-datalab gcp-ai-platform-notebook
GCP 终于发布了托管 Jupyter 笔记本。我希望能够通过连接到笔记本电脑在本地进行交互。IE。我使用 PyCharm 通过传递其 URL 和令牌参数来连接到外部配置的 jupyter notebbok 服务器。
问题也适用于 AWS Sagemaker 笔记本。
amazon-web-services google-cloud-platform google-cloud-ml amazon-sagemaker gcp-ai-platform-notebook
我前段时间创建了一个 GCP AI Platform Notebook 实例,对于我尝试安装的许多扩展,版本似乎太低了。我做了一个pip install upgrade jupyterlab并重新启动了虚拟机实例。当我点击 时OPEN JUPYTERLAB,我发现更新没有生效。
这样做的正确方法是什么?
我jupyter在 GCP AI Platform 笔记本实例的终端中以用户身份登录。
我只想安装一些东西(无法通过 pip 安装),但无法使用 gcloud 命令以 root 用户身份进行 ssh。
\n如果有人可以分享获得执行这些操作的权限的正确方法的指针,那就太好了。
\n以下是导致问题的示例包安装的片段 -
\n(base)~/datascience$ sudo cp ./pip-bash-completion/pip /etc/bash_completion.d/\n\nWe trust you have received the usual lecture from the local System\nAdministrator. It usually boils down to these three things:\n\n #1) Respect the privacy of others.\n #2) Think before you type.\n #3) With great power comes great responsibility.\n\n[sudo] password for jupyter: \nRun Code Online (Sandbox Code Playgroud)\nsudo根据我看到的信息,我应该有权访问 -
(base)~/datascience$ sudo cp ./pip-bash-completion/pip /etc/bash_completion.d/\n\nWe trust you …Run Code Online (Sandbox Code Playgroud) 我知道可以在Google Cloud上部署用于培训作业的自定义容器,并且我已经能够使用command来运行相同的容器。
gcloud ai-platform jobs submit training infer name --region some_region --master-image-uri=path/to/docker/image --config config.yaml
Run Code Online (Sandbox Code Playgroud)
训练工作已成功完成,并且模型已成功获得。现在,我想使用该模型进行推理,但是问题是我的代码具有系统级依赖关系,因此我必须对体系结构进行一些修改才能让它一直运行。这就是首先要为培训工作提供定制容器的原因。
该文档仅适用于培训部分和推断部分(如果可能的话),而据我所知,尚未使用自定义容器进行探索。
培训部分的文档可在此链接上找到
我的问题是,是否可以在Google Cloud-ml上出于推理目的部署自定义容器?
google-cloud-platform google-cloud-ml gcp-ai-platform-notebook
我在 GCP 和 AI Platform (Jupyterlab) 方面遇到了一些问题,似乎无法长时间与服务器保持稳定的连接。我不断收到“服务器连接错误”消息。从那里有两种可能性:
有时,当我在(重新)启动实例后运行第一个单元时,就会发生这种情况,有时会晚一点。我能够在笔记本上工作而没有任何问题的最长稳定时间是 20、30 分钟左右,这非常烦人。
我的主实例的配置: - 16 个 CPU - 60GB RAM - P100 NVIDIA GPU
我尝试过不同类型的实例,一直遇到同样的问题,家里网络稳定。
google-cloud-platform google-cloud-ml jupyter-lab google-dl-platform gcp-ai-platform-notebook
这似乎是一个非常简单的问题,但我找不到方法。jyputer笔记本可以选择逐个下载文件。但是我的训练过程生成了太多文件,我想一次性下载所有文件。有什么办法可以做到吗?
我在谷歌云的 AI 平台内创建了一个深度学习实例。我使用在浏览器上运行的内置 jupyterlab 笔记本(我使用 chrome)。最近我在保存代码时遇到了问题。自动保存以及保存笔记本文件不起作用。当我尝试保存时,我一直看到消息“保存开始”,但除此之外什么也没有发生,并且代码没有保存。我尝试重新启动内核以及重新启动实例,但问题不断出现。这里有人遇到过同样的事情吗?有解决办法吗?
谢谢
这个问题发生在我今天重新启动我的云笔记本服务器时。可以使用以下步骤重现:
使用 Tensorflow 或 Pytorch 和 GPU 创建 Google Cloud Notebook 服务器
启动服务器后,打开python控制台:
>>> import torch
>>> torch.cuda.is_available()
True
Run Code Online (Sandbox Code Playgroud)
CUDA 设备目前可用。
>>> import torch
>>> torch.cuda.is_available()
/opt/conda/lib/python3.7/site-packages/torch/cuda/__init__.py:52: UserWarning: CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero. (Triggered internally at /opt/conda/conda-bld/pytorch_1614378098133/work/c10/cuda/CUDAFunctions.cpp:109.)
return torch._C._cuda_getDeviceCount() > 0
False
Run Code Online (Sandbox Code Playgroud)
nvidia-smi 命令工作正常。
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 450.80.02 Driver Version: 450.80.02 CUDA Version: …Run Code Online (Sandbox Code Playgroud) google-cloud-platform pytorch google-dl-platform gcp-ai-platform-notebook