R中具有相同功能名称的库似乎非常烦人.解决以下问题的最简单方法是什么?
Attaching package: ‘dplyr’
The following objects are masked from ‘package:stats’:
filter, lag
The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
Run Code Online (Sandbox Code Playgroud)
添加library(stats)
或调用过滤器功能,stats::filter
以及下面显示的其他功能对我来说没有用.
library(ggplot2)
library(dplyr)
library(stats)
stats::filter
stats::lag
base::union
base::setdiff
base::setequal
base::intersect
# Reading in the data
data <- read.csv("data.csv", header = FALSE)
# Plots
dataSummary <- data %>% group_by(id) %>% summarise(data_count = x())
dataSummary
plotTest <- ggplot(dataSummary, aes(id, data_count)) + geom_bar(stat = 'identity') + ggtitle("Test Title")
plot(plotTest)
Run Code Online (Sandbox Code Playgroud)
但是这会在执行绘图功能之前不断给出先前的警告消息.有什么指针吗?或者无论如何要抑制这些警告并进行策划?
我想OLS regression estimation
在以下URL中运行数据集的滚动1000窗口以进行评估:
https://drive.google.com/open?id=0B2Iv8dfU4fTUa3dPYW5tejA0bzg
我尝试使用以下Python
脚本与pandas
版本0.20.2
.
# /usr/bin/python -tt
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from statsmodels.formula.api import ols
df = pd.read_csv('estimated.csv', names=('x','y'))
model = pd.stats.ols.MovingOLS(y=df.Y, x=df[['y']],
window_type='rolling', window=1000, intercept=True)
df['Y_hat'] = model.y_predict
Run Code Online (Sandbox Code Playgroud)
但是,当我运行我的Python
脚本时,我收到此错误:AttributeError: module 'pandas.stats' has no attribute 'ols'
.我发现这个错误的原因是因为它从Pandas
版本中删除了,因为0.20.0
我们可以从以下链接看到它.
https://github.com/pandas-dev/pandas/pull/11898
我们如何OLS Regression
处理最新版本的熊猫?
在我们的实验室中,我们具有具有以下特征的NVIDIA Tesla K80 GPU加速器计算:Intel(R) Xeon(R) CPU E5-2670 v3 @2.30GHz, 48 CPU processors, 128GB RAM, 12 CPU cores
在Linux 64位下运行。
我正在运行以下代码,该代码GridSearchCV
在将不同的数据帧集垂直追加到单个RandomForestRegressor
模型系列中之后执行。我正在考虑的两个样本数据集可在此链接中找到
import sys
import imp
import glob
import os
import pandas as pd
import math
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
import matplotlib
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import numpy as np
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection …
Run Code Online (Sandbox Code Playgroud) 对于我的评估,我想
使用以下脚本运行OLS regression estimation
此URL中的数据集滚动1000窗口:https:
//drive.google.com/open?id =Python
0B2Iv8dfU4fTUa3dPYW5tejA0bzg.
# /usr/bin/python -tt
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from statsmodels.formula.api import ols
df = pd.read_csv('estimated.csv', names=('x','y'))
model = pd.stats.ols.MovingOLS(y=df.Y, x=df[['y']],
window_type='rolling', window=1000, intercept=True)
df['Y_hat'] = model.y_predict
Run Code Online (Sandbox Code Playgroud)
但是,当我运行我的Python脚本时,我收到此错误:AttributeError: module 'pandas.stats' has no attribute 'ols'
.这个错误可能来自我正在使用的版本吗?在pandas
安装我的Linux节点上有一个版本的0.20.2
我有以下格式的数据集(在此链接中找到:https : //drive.google.com/open?id=0B2Iv8dfU4fTUY2ltNGVkMG05V00)。
time X Y
0.000543 0 10
0.000575 0 10
0.041324 1 10
0.041331 2 10
0.041336 3 10
0.04134 4 10
...
9.987735 55 239
9.987739 56 239
9.987744 57 239
9.987749 58 239
9.987938 59 239
Run Code Online (Sandbox Code Playgroud)
数据集中的第三列(Y)是我的真实值-这就是我想要预测(估计)的值。我想做一个预测Y
(即Y
根据的前100个滚动值来预测的当前值X
。为此,我python
使用编写以下脚本random forest regression model
。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
@author: deshag
"""
import pandas as pd
import numpy as np
from io import StringIO
from …
Run Code Online (Sandbox Code Playgroud) 我gnuplot
用来绘制来自两个单独的csv文件(在此链接中找到:https://drive.google.com/open?id = 0B2Iv8dfU4fTUZGV6X1Bvb3c4TWs)的数据,这些文件具有不同的行数,从而生成以下图表.
这些数据似乎在两个csv
文件中都没有共同的时间戳(第一列),但gnuplot
似乎符合上图所示的绘图.
这是gnuplot
我用来生成情节的脚本.
# ###### GNU Plot
set style data lines
set terminal postscript eps enhanced color "Times" 20
set output "output.eps"
set title "Actual vs. Estimated Comparison"
set style line 99 linetype 1 linecolor rgb "#999999" lw 2
#set border 1 back ls 11
set key right top
set key box linestyle 50
set key width -2
set xrange [0:10]
set key spacing 1.2
#set …
Run Code Online (Sandbox Code Playgroud) 对于我的评估,我在此链接( https://drive.google.com/drive/folders/0B2Iv8dfU4fTUMVFyYTEtWXlzYkk ) 中找到了一个数据集,格式如下。我数据集中的第三列 (Y) 是我的真实值 - 这就是我想要预测(估计)的值。
time X Y
0.000543 0 10
0.000575 0 10
0.041324 1 10
0.041331 2 10
0.041336 3 10
0.04134 4 10
...
9.987735 55 239
9.987739 56 239
9.987744 57 239
9.987749 58 239
9.987938 59 239
Run Code Online (Sandbox Code Playgroud)
我想运行例如 5 window 的滚动OLS regression estimation
,并且我已经使用以下脚本进行了尝试。
# /usr/bin/python -tt
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv('estimated_pred.csv')
model = pd.stats.ols.MovingOLS(y=df.Y, x=df[['X']],
window_type='rolling', window=5, intercept=True) …
Run Code Online (Sandbox Code Playgroud) 我想从列第二行的值中减去第一行的值_timestamp
(如下所示)。_number
是我数据中的排序列。
并将结果放在一个名为diff的新列中。我已经尝试使用以下查询
use dbtest
select t2._number, t2._timestamp,
coalesce(t2._timestamp -
(select t1._timestamp from dbo.tcp t1 where t1._number = t2._number + 1), t2._timestamp) as diff
from dbo.tbl t2
Run Code Online (Sandbox Code Playgroud)
但我收到以下错误。
Msg 8117, Level 16, State 1, Line 4
Operand data type datetime2 is invalid for subtract operator.
Run Code Online (Sandbox Code Playgroud)
任何提示将不胜感激。我的记录非常丰富,我想将其自动应用于整个专栏中。我正在使用SQL Sever 2008。
我正在使用一个非常大的.csv数据集进行评估,但是却遇到了要解决的错误。
Warning in preProcess.default(data, method = c("center", "scale")) :
These variables have zero variances: num_outbound_cmds, is_host_login
Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)
Run Code Online (Sandbox Code Playgroud)
在数据集中排除变量的最快方法是什么whose variance is zero (0)
?