我的目的是从同一台计算机/服务器上的R内启动两个或多个h2o集群/实例(不是两个或更多节点!),以使多个用户能够同时与h2o连接.此外,我希望能够单独关闭和重新启动集群,也可以从R内部.
我已经知道我无法简单地从R中控制多个h2o集群,因此我尝试从Windows 10中的命令行启动两个集群:
java -Xmx1g -jar h2o.jar -name testCluster1 -nthreads 1 -port 54321
java -Xmx1g -jar h2o.jar -name testCluster2 -nthreads 1 -port 54323
Run Code Online (Sandbox Code Playgroud)
这对我来说很好:
library(h2o)
h2o.init(startH2O = FALSE, ip = "localhost", port = 54321)
Connection successful!
R is connected to the H2O cluster:
H2O cluster uptime: 4 minutes 8 seconds
H2O cluster version: 3.8.3.2
H2O cluster name: testCluster
H2O cluster total nodes: 1
H2O cluster total memory: 0.87 GB
H2O cluster total cores: 4
H2O cluster allowed cores: …Run Code Online (Sandbox Code Playgroud) 我是 Python 新手,我想在第一列中聚合(分组)ID。第二列中的值是时间戳(日期时间格式),通过聚合 ID,我希望获得聚合 ID 列中每个 ID 的时间戳(以天为单位)之间的平均差异。我的桌子看起来像df1,我想要类似的东西df2,但由于我是一个绝对的初学者,我不知道如何做到这一点。
import pandas as pd
import numpy as np
from datetime import datetime
In[1]:
# df1
ID = np.array([1,1,1,2,2,3])
Timestamp = np.array([
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-08 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-03-15 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-02-01 18:07:02', "%Y-%m-%d %H:%M:%S"),
datetime.strptime('2018-01-01 18:07:02', "%Y-%m-%d %H:%M:%S")])
df = pd.DataFrame({'ID': ID, 'Timestamp': Timestamp})
Out[1]:
ID Timestamp
0 1 2018-01-01 18:07:02
1 1 2018-01-08 18:07:02
2 1 2018-03-15 18:07:02
3 2 …Run Code Online (Sandbox Code Playgroud) 我想通过纬度/经度提取某些国家/地区(更具体地说是某些国家/地区的省/州)的(免费)历史天气数据,我需要将结果作为 .csv 文件或 Pandas 数据框。我尝试了 predict.io / DarkSky ( https://zeevgilovitz.com/python-forecast.io/ )的包装器,但它每天限制为 1000 个请求。所以我想知道是否有任何 API 是免费的,返回一个 Pandas 数据帧或 .csv 格式并且支持经度/经度请求?
这是我尝试过的(如果您每天只需要 1000 个请求,这也有效)。
lat = 30
lng = 5
start_date = datetime.datetime(2016, 1, 1)
attributes = ["temperature", "humidity", "pressure", "windSpeed"]
def getWeatherData(lat, lng, start_date, attributes):
times = []
data = {}
for attr in attributes:
data[attr] = []
for offset in range(1, 1000):
forecast = forecastio.load_forecast(api_key, lat, lng, time=start_date+datetime.timedelta(offset), units="us")
h = forecast.hourly()
d = h.data
for p in d: …Run Code Online (Sandbox Code Playgroud) 我想知道如何使用多个AWS EC2实例和R-Studio设置h2o集群.我不是计算机科学家,对于那些微不足道的问题感到抱歉(!)
基于本教程(http://amunategui.github.io/h2o-on-aws/),我在AWS EC2实例(Linux)上成功安装了h2o和R-Studio.但我宁愿创建一个多实例集群,让我们说4个实例,每个实例有8个核心.
在此(http://h2o-release.s3.amazonaws.com/h2o/rel-lambert/5/docs-website/deployment/multinode.html)文档之后,我需要一个flatfile.txt,我可以在其中列出所有IP和每个EC2实例的端口.在下一步中,我必须将此文件复制到集群中的每个节点,然后我需要通过java命令行启动集群...因为我不是我已经提到的计算机科学家,所以出现了一些问题:
非常感谢你提前!
h2o ×2
r ×2
amazon-ec2 ×1
api ×1
cmd ×1
datetime ×1
pandas ×1
python ×1
timedelta ×1
weather ×1
weather-api ×1
weatherdata ×1
windows ×1