标签: cluster-computing

如何在 AWS Batch 中将现有 ECS 集群设置为计算环境

我的环境中正在ECS cluster运行,它配置了任务、存储库和服务以及自动缩放。

我正在发现该AWS Batch服务,当我创建一个新的服务时,compute environment一个新的集群将被添加到该ECS服务中。我想知道如何将 a 设置compute environment为我已有的集群?

solution cluster-computing amazon-web-services amazon-ecs

5
推荐指数
1
解决办法
1719
查看次数

无法从内部 docker swarm 集群连接到外部 mongodb 服务

如果我运行后端的单个 docker 容器,它运行良好并连接到在主机上运行的 mongodb。但是当我使用 docker-compose 运行后端时,它不会连接到 mongodb 并打印到控制台:

MongoError: failed to connect to server [12.345.678.912:27017] on first connect [MongoError: connection 0 to 12.345.678.912:27017 timed out]
Run Code Online (Sandbox Code Playgroud)

docker-compose.yml 内容:

version: "3"
services:
  web:
    image: __BE-IMAGE__
    deploy:
      replicas: 1
      restart_policy:
        condition: on-failure
      resources:
        limits:
          cpus: "0.1"
          memory: 2048M
    ports:
      - "1337:8080"
    networks:
      - webnet
  visualizer:
    image: dockersamples/visualizer:stable
    ports:
      - "1340:8080"
    volumes:
      - "/var/run/docker.sock:/var/run/docker.sock"
    deploy:
      placement:
        constraints: [node.role == manager]
    networks:
      - webnet
networks:
  webnet:
Run Code Online (Sandbox Code Playgroud)

我如何运行单个 docker 容器:

docker run -p 1337:8080 BE-IMAGE
Run Code Online (Sandbox Code Playgroud)

cluster-computing mongodb docker-compose docker-swarm

5
推荐指数
1
解决办法
1260
查看次数

如何从外部连接到 Kubernetes 中的无头服务?

我创建了一个无头服务:

apiVersion: v1
kind: Service
metadata:
  name: myapp-service-headless
spec:
  ports:
    - port: 80
  selector:
    app: myapp
  clusterIP: None
Run Code Online (Sandbox Code Playgroud)

从 Kubernetes 仪表板我可以看到它Internal endpoints

myapp-service-headless:80 TCP
myapp-service-headless:0 TCP
Run Code Online (Sandbox Code Playgroud)

在此应用程序中,我还将内部端点设置为:

http://myapp-service-headless
Run Code Online (Sandbox Code Playgroud)

但是从外部如何访问其IP来连接API呢?

比如我的Kubernetes的IP是192.168.99.100,那么连接192.168.99.100可以吗?

现在来自 Kubernetes 仪表板的服务状态

服务

在此输入图像描述

服务详情

在此输入图像描述

ip internals cluster-computing endpoint kubernetes

5
推荐指数
1
解决办法
9484
查看次数

如何使用 slurm 在特定节点上运行作业?

我最初的问题是如何在集群上运行 CVX 工具箱(具有学术许可证)。我无法找到直接的方法来做到这一点,所以我决定以不同的方式解决这个问题。

CVX 许可证依赖于硬件,每个学术许可证与 4 个硬件绑定。我想将其中一个节点(可能是两个)添加到许可证列表中。为此,我需要始终在相同的硬件或节点上运行 CVX(我知道这可能不是一种有效的方法)。有什么办法可以做到吗?

cluster-computing slurm cvx

5
推荐指数
1
解决办法
2万
查看次数

在 databricks 集群中使用 init 脚本安装 python 包

我已经通过运行以下命令安装了 databricks cli 工具

pip install databricks-cli使用适合您的 Python 安装的 pip 版本。如果您使用的是 Python 3,请运行 pip3。

然后,通过创建 PAT(Databricks 中的个人访问令牌),我运行以下 .sh bash 脚本:

# You can run this on Windows as well, just change to a batch files
# Note: You need the Databricks CLI installed and you need a token configued
#!/bin/bash
echo "Creating DBFS direcrtory"
dbfs mkdirs dbfs:/databricks/packages

echo "Uploading cluster init script"
dbfs cp --overwrite python_dependencies.sh                     dbfs:/databricks/packages/python_dependencies.sh

echo "Listing DBFS direcrtory"
dbfs ls dbfs:/databricks/packages
Run Code Online (Sandbox Code Playgroud)

python_dependency.sh 脚本

#!/bin/bash
# Restart …
Run Code Online (Sandbox Code Playgroud)

python linux bash cluster-computing azure-databricks

5
推荐指数
1
解决办法
2万
查看次数

Snakemake 在 SGE 上提交带有多个通配符的作业时出现问题

我之前在LSF集群上使用过snakemake,一切都工作得很好。然而,最近我迁移到 SGE 集群,当我尝试使用多个通配符运行一项作业时,出现了一个非常奇怪的错误。

当我尝试根据此规则提交作业时

rule download_reads :
    threads : 1
    output : "data/{sp}/raw_reads/{accesion}_1.fastq.gz"
    shell : "scripts/download_reads.sh {wildcards.sp} {wildcards.accesion} data/{wildcards.sp}/raw_reads/{wildcards.accesion}"
Run Code Online (Sandbox Code Playgroud)

我收到以下错误(snakemake_clust.sh详细信息如下)

./snakemake_clust.sh data/Ecol1/raw_reads/SRA123456_1.fastq.gz                                          
Building DAG of jobs...
Using shell: /bin/bash
Provided cluster nodes: 10
Job counts:
        count   jobs
        1       download_reads
        1

[Thu Jul 30 12:08:57 2020]
rule download_reads:
    output: data/Ecol1/raw_reads/SRA123456_1.fastq.gz
    jobid: 0
    wildcards: sp=Ecol1, accesion=SRA123456

scripts/download_reads.sh Ecol1 SRA123456 data/Ecol1/raw_reads/SRA123456
Unable to run job: ERROR! two files are specified for the same host
ERROR! two files are specified for the …
Run Code Online (Sandbox Code Playgroud)

cluster-computing sungridengine snakemake

5
推荐指数
1
解决办法
818
查看次数

Databricks Job API 使用单节点集群创建作业

我试图找出为什么在使用 Databricks Job API 时出现以下错误。

{ "error_code": "INVALID_PARAMETER_VALUE", "message": "集群验证错误:缺少必填字段:settings.cluster_spec.new_cluster.size" }

我做了什么:

  1. 我使用 Databricks UI 创建了一个在单节点集群上运行的作业。
  2. 我从 UI 复制并粘贴了作业配置 json。
  3. 我删除了我的作业,并尝试通过使用作业 API 发送 POST 以及复制的 json 来重新创建它,如下所示:
{
    "new_cluster": {
        "spark_version": "7.5.x-scala2.12",
        "spark_conf": {
            "spark.master": "local[*]",
            "spark.databricks.cluster.profile": "singleNode"
        },
        "azure_attributes": {
            "availability": "ON_DEMAND_AZURE",
            "first_on_demand": 1,
            "spot_bid_max_price": -1
        },
        "node_type_id": "Standard_DS3_v2",
        "driver_node_type_id": "Standard_DS3_v2",
        "custom_tags": {
            "ResourceClass": "SingleNode"
        },
        "enable_elastic_disk": true
    },
    "libraries": [
        {
            "pypi": {
                "package": "koalas==1.5.0"
            }
        }
    ],
    "notebook_task": {
        "notebook_path": "/pathtoNotebook/TheNotebook",
        "base_parameters": {
            "param1": "test"
           
        }
    }, …
Run Code Online (Sandbox Code Playgroud)

api jobs cluster-computing apache-spark databricks

5
推荐指数
1
解决办法
4012
查看次数

节点 cluster.isPrimary 未定义

Node 说它cluster.isMaster已被弃用,我们应该使用cluster.isPrimary. 但是,虽然isMaster毫无问题地返回我 true,但当我undefined尝试时我得到cluster.isPrimary

const cluster = require("cluster");

console.log(cluster.isPrimary); /// undefined

console.log(cluster.isMaster); /// true

Run Code Online (Sandbox Code Playgroud)

为什么会发生这种情况?

multithreading cluster-computing child-process node.js node-cluster

5
推荐指数
2
解决办法
3198
查看次数

您可以在 Databricks 池节点上预安装库吗?

我们有许多 Python Databricks 作业,它们都使用相同的底层 Wheel 包来安装其依赖项。即使节点已在池中闲置,安装此 Wheel 软件包仍需要 90 秒。

其中一些作业运行时间非常长,因此我们希望使用作业计算机集群来降低 DBU 的成本。

其中一些作业的运行时间要短得多(<10 秒),其中 90 秒的安装时间似乎更重要。我们一直在考虑使用热集群(通用计算)来完成这些较短的作业。如果可能的话,我们希望避免通用计算的额外成本。

阅读 Databricks 文档表明池中的空闲实例是为我们保留的,但不会消耗我们的 DBU。有没有办法让我们在空闲实例上预安装所需的库,以便当作业完成时我们能够立即开始处理它?

是否有替代方法可以满足类似的用例?

python pool cluster-computing azure databricks

5
推荐指数
1
解决办法
2496
查看次数

错误:检查 AWS STS 访问 – 无法获取当前会话的角色 ARN:MissingEndpoint:此服务需要“端点”配置

我创建了一个cluster.yaml包含以下信息的文件:

\n
---\napiVersion: eksctl.io/v1alpha5\nkind: ClusterConfig\nmetadata:\n  name: eks-litmus-demo\n  region: ${AWS_REGION}\n  version: "1.21"\nmanagedNodeGroups:\n  - instanceType: m5.large\n    amiFamily: AmazonLinux2\n    name: eks-litmus-demo-ng\n    desiredCapacity: 2\n    minSize: 2\n    maxSize: 4\nEOF\n
Run Code Online (Sandbox Code Playgroud)\n

当我$ eksctl create cluster -f cluster.yaml通过终端运行创建集群时,出现以下错误:

\n

错误:检查 AWS STS 访问 \xe2\x80\x93 无法获取当前会话的角色 ARN:MissingEndpoint:此服务需要“端点”配置

\n

我该如何解决这个问题?请帮忙!!!

\n

注意:我将 STS 下的全球和区域终端节点设置为“在所有 AWS 区域均有效”。

\n

yaml cluster-computing amazon-web-services amazon-eks eksctl

5
推荐指数
1
解决办法
2万
查看次数