在 sagemaker jupyter 笔记本中,我运行以下代码从 s3 存储桶加载数据。
import boto3
import pandas as pd
from sagemaker import get_execution_role
role = get_execution_role()
bucket='bucketname'
data_key = 'filename'
data_location = 's3://{}/{}'.format(bucket, data_key)
data=pd.read_csv(data_location)
Run Code Online (Sandbox Code Playgroud)
然后内核死掉了,我收到一个弹出窗口,提示“内核似乎已经死掉了。它将自动重新启动。”
有没有一种简单的方法可以在 sagemaker 中从 s3 加载数据?
所以我有一个看起来像这样的熊猫数据框。
name is_something
0 a 0
1 b 1
2 c 0
3 c 1
4 a 1
5 b 0
6 a 1
7 c 0
8 a 1
Run Code Online (Sandbox Code Playgroud)
有没有办法使用 groupby 和 merge 来创建一个新列,该列给出名称在整个数据框中出现的 is_something 值为 1 的次数?更新后的数据框如下所示:
name is_something no_of_times_is_something_is_1
0 a 0 3
1 b 1 1
2 c 0 1
3 c 1 1
4 a 1 3
5 b 0 1
6 a 1 3
7 c 0 1
8 a 1 3
Run Code Online (Sandbox Code Playgroud)
我知道你可以循环遍历数据框来做到这一点,但我正在寻找一种更有效的方法,因为我正在使用的数据集非常大。提前致谢!
我将在一个相当大的数据集上运行 ml 模型。它大约 15 GB,有 200 列和 430 万行。我想知道 AWS Sagemaker 中此类数据集的最佳 Notebook 实例类型是什么。