小编Nic*_*int的帖子

Ray 集群配置 file_mounts 部分不允许启动工作节点

我正在尝试使用配置文件中的 file_mounts 块将少量文件分发到 AWS EC2 上的 Ray 集群中的每个节点:-

file_mounts: { "./": "./run_files" }

集群启动时仅使用一个主节点,run_files 目录的内容已正确复制到该主节点上。但是,所请求的两个工作节点不会启动。如果我省略 file_mounts 部分,工作人员就会启动。Ray 监视器指示在 Anaconda3 安装的 matplotlib 子目录中定位文件 libtcl.so 时出现问题。该文件位于主节点上的正确路径上,因此工作节点上的设置似乎无法正常工作:-

$ ray exec ray_conf.yaml  'tail -n 100 -f /tmp/ray/session_*/logs/monitor*'
2019-05-29 19:36:14,019 INFO updater.py:95 -- NodeUpdater: Waiting for IP of i-073950262949fe9a8...
2019-05-29 19:36:14,019 INFO log_timer.py:21 -- NodeUpdater: i-073950262949fe9a8: Got IP [LogTimer=362ms]
2019-05-29 19:36:14,025 INFO updater.py:272 -- NodeUpdater: Running tail -n 100 -f /tmp/ray/session_*/logs/monitor* on 54.175.173.233...
==> /tmp/ray/session_2019-05-29_23-35-49_842129_4407/logs/monitor.err <==
Traceback (most recent call last):
  File "/home/ubuntu/anaconda3/lib/python3.6/site-packages/ray/monitor.py", line 376, …
Run Code Online (Sandbox Code Playgroud)

python amazon-ec2 ray

2
推荐指数
1
解决办法
962
查看次数

标签 统计

amazon-ec2 ×1

python ×1

ray ×1