小编con*_*iii的帖子

从R中启动多个h2o集群

我的目的是从同一台计算机/服务器上的R内启动两个或多个h2o集群/实例(不是两个或更多节点!),以使多个用户能够同时与h2o连接.此外,我希望能够单独关闭和重新启动集群,也可以从R内部.

我已经知道我无法简单地从R中控制多个h2o集群,因此我尝试从Windows 10中的命令行启动两个集群:

java -Xmx1g -jar h2o.jar -name testCluster1 -nthreads 1  -port 54321
java -Xmx1g -jar h2o.jar -name testCluster2 -nthreads 1  -port 54323

Run Code Online (Sandbox Code Playgroud)

这对我来说很好:

library(h2o)

h2o.init(startH2O = FALSE, ip = "localhost", port = 54321) 
Connection successful!

R is connected to the H2O cluster: 
H2O cluster uptime:         4 minutes 8 seconds 
H2O cluster version:        3.8.3.2 
H2O cluster name:           testCluster 
H2O cluster total nodes:    1 
H2O cluster total memory:   0.87 GB 
H2O cluster total cores:    4 
H2O cluster allowed cores: …

Run Code Online (Sandbox Code Playgroud)

windows cmd r cluster-computing h2o

con*_*iii

lucky-day

9
推荐指数

1
解决办法

1769
查看次数

在Python中使用groupby计算平均差异

我是 Python 新手，我想在第一列中聚合（分组）ID。第二列中的值是时间戳（日期时间格式），通过聚合 ID，我希望获得聚合 ID 列中每个 ID 的时间戳（以天为单位）之间的平均差异。我的桌子看起来像df1，我想要类似的东西df2，但由于我是一个绝对的初学者，我不知道如何做到这一点。

import pandas as pd
import numpy as np
from datetime import datetime

In[1]:
# df1
ID = np.array([1,1,1,2,2,3])
Timestamp = np.array([
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-08 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-03-15 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-02-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S")])
df = pd.DataFrame({'ID': ID, 'Timestamp': Timestamp})

Out[1]:   
    ID  Timestamp
0   1   2018-01-01 18:07:02
1   1   2018-01-08 18:07:02
2   1   2018-03-15 18:07:02
3   2 …

Run Code Online (Sandbox Code Playgroud)

python datetime timedelta pandas pandas-groupby

con*_*iii

2018 07-08

5
推荐指数

1
解决办法

1580
查看次数

我想通过纬度/经度提取某些国家/地区（更具体地说是某些国家/地区的省/州）的（免费）历史天气数据，我需要将结果作为 .csv 文件或 Pandas 数据框。我尝试了 predict.io / DarkSky ( https://zeevgilovitz.com/python-forecast.io/ )的包装器，但它每天限制为 1000 个请求。所以我想知道是否有任何 API 是免费的，返回一个 Pandas 数据帧或 .csv 格式并且支持经度/经度请求？

这是我尝试过的（如果您每天只需要 1000 个请求，这也有效）。

lat = 30
lng = 5
start_date = datetime.datetime(2016, 1, 1)
attributes = ["temperature", "humidity", "pressure", "windSpeed"]


def getWeatherData(lat, lng, start_date, attributes):

    times = []
    data = {}

    for attr in attributes:
        data[attr] = []

    for offset in range(1, 1000):
        forecast = forecastio.load_forecast(api_key, lat, lng, time=start_date+datetime.timedelta(offset), units="us")
        h = forecast.hourly()
        d = h.data

        for p in d: …

Run Code Online (Sandbox Code Playgroud)

api weather weather-api weatherdata

con*_*iii

lucky-day

5
推荐指数

1
解决办法

1882
查看次数

在AWS EC2上使用h2o进行多节点群集安装

我想知道如何使用多个AWS EC2实例和R-Studio设置h2o集群.我不是计算机科学家,对于那些微不足道的问题感到抱歉(!)

基于本教程(http://amunategui.github.io/h2o-on-aws/),我在AWS EC2实例(Linux)上成功安装了h2o和R-Studio.但我宁愿创建一个多实例集群,让我们说4个实例,每个实例有8个核心.

在此(http://h2o-release.s3.amazonaws.com/h2o/rel-lambert/5/docs-website/deployment/multinode.html)文档之后,我需要一个flatfile.txt,我可以在其中列出所有IP和每个EC2实例的端口.在下一步中,我必须将此文件复制到集群中的每个节点,然后我需要通过java命令行启动集群...因为我不是我已经提到的计算机科学家,所以出现了一些问题: