我刚开始学习 H2O。我很困惑我是否在家里运行 H2O 只是为了学习。当我简单地运行“h2o.init()”时,然后开始使用 H2O 进行数据清理或建模。它会加快大数据的计算速度吗?它是否会自动连接到某些在线 H2O 集群?H2O 集群位于何处?
当您运行h2o.init()(即不带参数)时,它将在同一台机器上启动一个“集群”。默认情况下,它将提供大约四分之一的机器内存,并且可以使用所有线程或两个线程(后者是如果使用 R 并且您从 CRAN 安装它)。你会发现 Flow 在听http://127.0.0.1:54321/
如果您已经在另一台机器上运行了一个 H2O 集群(无论是在您的 LAN 上还是在远程云服务器上),请提供地址以h2o.init()使其连接到该地址,而不是在本地启动任何东西。
运行help(h2o.init)(在 Python 上)或?h2o.init(在 R 上)以查看所有可用选项。
注意:H2O 是一种客户端/服务器架构,但服务器(也称为“集群”,即使您只有一台机器)是所有动作发生的地方,也是保存数据和模型的地方,而客户端是比较薄。回应其中一条评论,如果您将运行 localhost 的 H2O 与 scikit-learn 之类的库进行比较,则没有太大区别(在可用计算能力方面)。H2O 的优势在于您可以轻松透明地通过 LAN 添加更多机器,以增加可用内存和(在某种程度上)计算能力;以及使用 R 以外语言的客户端。缺点主要在于必须记住服务器是保存数据的地方;例如,对于大型数据集,使用函数将其直接加载到您的服务器中,因为在客户端中保留副本只是浪费内存。
| 归档时间: |
|
| 查看次数: |
990 次 |
| 最近记录: |