小编awr*_*019的帖子

当我尝试从 s3 加载数据时,sagemaker 内核中的 Jupyter 笔记本不断死机

在 sagemaker jupyter 笔记本中,我运行以下代码从 s3 存储桶加载数据。

import boto3
import pandas as pd
from sagemaker import get_execution_role

role = get_execution_role()
bucket='bucketname'
data_key = 'filename'
data_location = 's3://{}/{}'.format(bucket, data_key)

data=pd.read_csv(data_location)
Run Code Online (Sandbox Code Playgroud)

然后内核死掉了,我收到一个弹出窗口,提示“内核似乎已经死掉了。它将自动重新启动。”

有没有一种简单的方法可以在 sagemaker 中从 s3 加载数据?

python amazon-s3 jupyter-notebook amazon-sagemaker

6
推荐指数
1
解决办法
1万
查看次数

使用 groupby 和 merge 在熊猫中创建新列

所以我有一个看起来像这样的熊猫数据框。

    name  is_something
0   a     0
1   b     1
2   c     0
3   c     1
4   a     1
5   b     0
6   a     1
7   c     0
8   a     1
Run Code Online (Sandbox Code Playgroud)

有没有办法使用 groupby 和 merge 来创建一个新列,该列给出名称在整个数据框中出现的 is_something 值为 1 的次数?更新后的数据框如下所示:

    name  is_something no_of_times_is_something_is_1
0   a     0            3
1   b     1            1
2   c     0            1
3   c     1            1
4   a     1            3
5   b     0            1
6   a     1            3
7   c     0            1  
8   a     1            3
Run Code Online (Sandbox Code Playgroud)

我知道你可以循环遍历数据框来做到这一点,但我正在寻找一种更有效的方法,因为我正在使用的数据集非常大。提前致谢!

python pandas python-3.7 pandas-groupby

2
推荐指数
1
解决办法
154
查看次数

Sagemaker Notebook 实例类型推荐

我将在一个相当大的数据集上运行 ml 模型。它大约 15 GB,有 200 列和 430 万行。我想知道 AWS Sagemaker 中此类数据集的最佳 Notebook 实例类型是什么。

python amazon-web-services amazon-sagemaker

2
推荐指数
1
解决办法
1018
查看次数