我在docker文件中使用下面的行安装了R. 请建议如何指定要在我的docker文件中安装的软件包.
RUN yum -y install R-core R-devel
Run Code Online (Sandbox Code Playgroud)
我正在做这样的事情:
RUN R -e "install.packages('methods',dependencies=TRUE, repos='http://cran.rstudio.com/')"\
&& R -e "install.packages('jsonlite',dependencies=TRUE, repos='http://cran.rstudio.com/')" \
&& R -e "install.packages('tseries',dependencies=TRUE, repos='http://cran.rstudio.com/')"
Run Code Online (Sandbox Code Playgroud)
这是正确的方法吗?
如何在我的 docker 映像中安装 R 版本 3.4.0。我已经使用以下命令安装了 python:
RUN yum -y install https://centos6.iuscommunity.org/ius-release.rpm \
&& yum -y install python36u \
&& yum -y install python36u-devel \
&& yum -y install python36u-pip \
&& yum -y install python36u-tkinter.x86_64
Run Code Online (Sandbox Code Playgroud)
同样,我需要安装 R:
到目前为止,我已经在 R 文件中指定了以下内容:
ENV R_BASE_VERSION 3.4.0
RUN Rscript -e 'install.packages("devtools",dependencies=TRUE)' \
&&Rscript -e 'install.packages("methods",dependencies=TRUE)' \
&&Rscript -e 'install.packages("jsonlite",dependencies=TRUE)' \
Run Code Online (Sandbox Code Playgroud)
请建议。我是 docker 新手
我想我需要做如下的事情:
ENV R_BASE_VERSION 3.4.1
## Now install R and littler, and create a link for littler in /usr/local/bin
## Also …Run Code Online (Sandbox Code Playgroud) 我如何记录数据帧中的非零值并将 0 替换为 NA。
我有如下数据框:
time y1 y2
0 2017-08-06 00:52:00 0 10
1 2017-08-06 00:52:10 1 20
2 2017-08-06 00:52:20 2 0
3 2017-08-06 00:52:30 3 0
4 2017-08-06 00:52:40 0 5
5 2017-08-06 00:52:50 4 6
6 2017-08-06 00:53:00 6 11
7 2017-08-06 00:53:10 7 12
8 2017-08-06 00:53:20 8 0
9 2017-08-06 00:53:30 0 13
Run Code Online (Sandbox Code Playgroud)
我想记录所有列的日志,预计第一列时间,日志应该只计算非零值,零应该用 NA 替换?我该怎么做呢?
所以,我尝试做这样的事情:
cols = df.columns.difference(['time'])
# Replacing O's with NA's using below:
df[cols] = df[cols].mask(np.isclose(df[cols].values, 0), np.nan)
df[cols] = np.log(df[cols]) …Run Code Online (Sandbox Code Playgroud) 我正在尝试使用ARIMA模型进行预测。我是新来的。我尝试绘制我的数据集(每小时数据)的seasonal_decompose(),下面是该图吗?
我想了解这些情节,简要说明会有所帮助。我看到最初没有趋势,一段时间后又有上升趋势。我不确定是否要说的对吗?我想了解如何正确阅读这些图表。请给一些很好的描述。
当我尝试应用Dickey-Fuller测试来检查我的数据是否稳定并且需要进一步区分时,我得到了以下结果:
Test Statistic -4.117543
p-value 0.000906
Lags Used 30.000000
Number of Observations Used 4289.000000
Critical Value (1%) -3.431876
Critical Value (5%) -2.862214
Critical Value (10%) -2.567129
Run Code Online (Sandbox Code Playgroud)
我指的是2个链接以了解这一点:http : //www.seanabu.com/2016/03/22/time-series-seasonal-ARIMA-model-in-python/
该链接表示,当test-statistic大于临界值时,表示数据是固定的;另一方面,反之亦然。我对此感到困惑,我也提到了otexts.org,它说我们应该基于p值进行检查。请提出如何解释ADF测试给出的结果?
另外,当我尝试将ARIMA模型应用于数据集时:
from statsmodels.tsa.arima_model import ARIMA
model = ARIMA(df.y, order=(0,1,0))
model_fit = model.fit()
Run Code Online (Sandbox Code Playgroud)
我的数据框具有datetime列作为索引,而y列具有浮点值。当我在此数据框上应用模型时。我遇到这种错误:
IndexError:列表索引超出范围。
当我尝试使用以下命令打印模型摘要时,将出现此错误:
print(model_fit.summary())
Run Code Online (Sandbox Code Playgroud)
请帮我解决一下这个。这样我就可以更好地了解ARIMA。
python ×3
docker ×2
dockerfile ×2
python-3.x ×2
r ×2
arima ×1
dataframe ×1
python-2.7 ×1
time-series ×1
yum ×1