小编awr*_*019的帖子

当我尝试从 s3 加载数据时，sagemaker 内核中的 Jupyter 笔记本不断死机

在 sagemaker jupyter 笔记本中，我运行以下代码从 s3 存储桶加载数据。

import boto3
import pandas as pd
from sagemaker import get_execution_role

role = get_execution_role()
bucket='bucketname'
data_key = 'filename'
data_location = 's3://{}/{}'.format(bucket, data_key)

data=pd.read_csv(data_location)

Run Code Online (Sandbox Code Playgroud)

然后内核死掉了，我收到一个弹出窗口，提示“内核似乎已经死掉了。它将自动重新启动。”

有没有一种简单的方法可以在 sagemaker 中从 s3 加载数据？

python amazon-s3 jupyter-notebook amazon-sagemaker

awr*_*019

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

使用 groupby 和 merge 在熊猫中创建新列

所以我有一个看起来像这样的熊猫数据框。

    name  is_something
0   a     0
1   b     1
2   c     0
3   c     1
4   a     1
5   b     0
6   a     1
7   c     0
8   a     1

Run Code Online (Sandbox Code Playgroud)

有没有办法使用 groupby 和 merge 来创建一个新列，该列给出名称在整个数据框中出现的 is_something 值为 1 的次数？更新后的数据框如下所示：

    name  is_something no_of_times_is_something_is_1
0   a     0            3
1   b     1            1
2   c     0            1
3   c     1            1
4   a     1            3
5   b     0            1
6   a     1            3
7   c     0            1  
8   a     1            3

Run Code Online (Sandbox Code Playgroud)

我知道你可以循环遍历数据框来做到这一点，但我正在寻找一种更有效的方法，因为我正在使用的数据集非常大。提前致谢！

python pandas python-3.7 pandas-groupby

awr*_*019

lucky-day

2
推荐指数

1
解决办法

154
查看次数