使用 github 配置 EMR 笔记本

mr-*_*-sk 2 amazon-ec2 amazon-web-services amazon-emr amazon-vpc jupyter-notebook

我正在运行一个 EMR 集群,并且正在尝试将笔记本链接到 github。

我有:

  • 添加了对 EMR 角色的 AWS 秘密访问(这是我的第一个错误)
  • 向所有 EMR 安全组添加了出站 HTTPS/443

尝试使用我的用户/密码密钥将笔记本链接到私人存储库,但出现以下错误:

Unable to reach repository https://github.com/<my repo>. Ensure network and security groups have valid configurations. Ensure that the repository information provided is correct.
Run Code Online (Sandbox Code Playgroud)

我在文档中看到它谈到了 NAT 和 VPG 选项,而我没有这两个选项。有这个必要吗?这些文档对细节/配置的描述非常简单。

https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-management-notebooks-git-considerations.html

任何帮助表示赞赏。

She*_*oli 5

你需要注意 4 件事:

  1. git 存储库以及目标分支应该存在

  2. 使用 Secrets Manager 配置访问 Git 的凭据

  3. 您的 EMR 集群必须位于私有子网中,而不是公共子网中。您的 VPC 中必须有一个 NAT G/W,该私有子网应使用该 NAT G/W 来访问互联网,即为此私有子网配置路由表以将 0.0.0.0/0 映射到 NAT G/W。

  4. 您需要有 2 个安全组 (SG):

    我。主实例的 SG

    入站规则- 允许来自 EMR 笔记本默认 EC2 安全组中任何资源的 TCP 端口 18888

    出站规则- 无

    二. 笔记本实例的 SG

    我。主实例的 SG

    入站规则- 无

    出站规则- 允许 TCP 端口 18888 访问 EMR 笔记本的默认 EC2 安全组中的任何资源。还允许笔记本通过集群将流量路由到互联网,例如 HTTPS TCP 443 0.0.0.0/0

来源:https ://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-management-notebooks-security-groups.html