小编con*_*iii的帖子

从R中启动多个h2o集群

我的目的是从同一台计算机/服务器上的R内启动两个或多个h2o集群/实例(不是两个或更多节点!),以使多个用户能够同时与h2o连接.此外,我希望能够单独关闭和重新启动集群,也可以从R内部.

我已经知道我无法简单地从R中控制多个h2o集群,因此我尝试从Windows 10中的命令行启动两个集群:

java -Xmx1g -jar h2o.jar -name testCluster1 -nthreads 1  -port 54321
java -Xmx1g -jar h2o.jar -name testCluster2 -nthreads 1  -port 54323
Run Code Online (Sandbox Code Playgroud)

这对我来说很好:

library(h2o)

h2o.init(startH2O = FALSE, ip = "localhost", port = 54321) 
Connection successful!

R is connected to the H2O cluster: 
H2O cluster uptime:         4 minutes 8 seconds 
H2O cluster version:        3.8.3.2 
H2O cluster name:           testCluster 
H2O cluster total nodes:    1 
H2O cluster total memory:   0.87 GB 
H2O cluster total cores:    4 
H2O cluster allowed cores: …
Run Code Online (Sandbox Code Playgroud)

windows cmd r cluster-computing h2o

9
推荐指数
1
解决办法
1769
查看次数

在Python中使用groupby计算平均差异

我是 Python 新手,我想在第一列中聚合(分组)ID。第二列中的值是时间戳(日期时间格式),通过聚合 ID,我希望获得聚合 ID 列中每个 ID 的时间戳(以天为单位)之间的平均差异。我的桌子看起来像df1,我想要类似的东西df2,但由于我是一个绝对的初学者,我不知道如何做到这一点。

import pandas as pd
import numpy as np
from datetime import datetime

In[1]:
# df1
ID = np.array([1,1,1,2,2,3])
Timestamp = np.array([
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-08 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-03-15 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-02-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S")])
df = pd.DataFrame({'ID': ID, 'Timestamp': Timestamp})

Out[1]:   
    ID  Timestamp
0   1   2018-01-01 18:07:02
1   1   2018-01-08 18:07:02
2   1   2018-03-15 18:07:02
3   2 …
Run Code Online (Sandbox Code Playgroud)

python datetime timedelta pandas pandas-groupby

5
推荐指数
1
解决办法
1580
查看次数

是否有支持纬度/经度的免费历史天气数据 API?

我想通过纬度/经度提取某些国家/地区(更具体地说是某些国家/地区的省/州)的(免费)历史天气数据,我需要将结果作为 .csv 文件或 Pandas 数据框。我尝试了 predict.io / DarkSky ( https://zeevgilovitz.com/python-forecast.io/ )的包装器,但它每天限制为 1000 个请求。所以我想知道是否有任何 API 是免费的,返回一个 Pandas 数据帧或 .csv 格式并且支持经度/经度请求?

这是我尝试过的(如果您每天只需要 1000 个请求,这也有效)。

lat = 30
lng = 5
start_date = datetime.datetime(2016, 1, 1)
attributes = ["temperature", "humidity", "pressure", "windSpeed"]


def getWeatherData(lat, lng, start_date, attributes):

    times = []
    data = {}

    for attr in attributes:
        data[attr] = []

    for offset in range(1, 1000):
        forecast = forecastio.load_forecast(api_key, lat, lng, time=start_date+datetime.timedelta(offset), units="us")
        h = forecast.hourly()
        d = h.data

        for p in d: …
Run Code Online (Sandbox Code Playgroud)

api weather weather-api weatherdata

5
推荐指数
1
解决办法
1882
查看次数

在AWS EC2上使用h2o进行多节点群集安装

我想知道如何使用多个AWS EC2实例和R-Studio设置h2o集群.我不是计算机科学家,对于那些微不足道的问题感到抱歉(!)

基于本教程(http://amunategui.github.io/h2o-on-aws/),我在AWS EC2实例(Linux)上成功安装了h2o和R-Studio.但我宁愿创建一个多实例集群,让我们说4个实例,每个实例有8个核心.

在此(http://h2o-release.s3.amazonaws.com/h2o/rel-lambert/5/docs-website/deployment/multinode.html)文档之后,我需要一个flatfile.txt,我可以在其中列出所有IP和每个EC2实例的端口.在下一步中,我必须将此文件复制到集群中的每个节点,然后我需要通过java命令行启动集群...因为我不是我已经提到的计算机科学家,所以出现了一些问题:

  1. 我在哪里可以找到每个h2o实例的IP和端口?
  2. 我如何将生成的文件复制到每个节点?
  3. 从第5步开始,我完全糊涂了; 我在哪里插入这一行/我在哪里可以找到java命令行?
  4. 我不想使用h2o的Web UI,那么如何从R-Studio访问集群(安装在其中一个实例上)?

非常感谢你提前!

r cluster-computing amazon-ec2 amazon-web-services h2o

4
推荐指数
1
解决办法
1275
查看次数