小编Des*_*gos的帖子

具有相同功能名称的包

R中具有相同功能名称的库似乎非常烦人.解决以下问题的最简单方法是什么?

Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:
filter, lag
The following objects are masked from ‘package:base’:
intersect, setdiff, setequal, union
Run Code Online (Sandbox Code Playgroud)

添加library(stats)或调用过滤器功能,stats::filter以及下面显示的其他功能对我来说没有用.

library(ggplot2)
library(dplyr)
library(stats)
stats::filter
stats::lag 
base::union 
base::setdiff 
base::setequal 
base::intersect

# Reading in the data
data <- read.csv("data.csv", header = FALSE)

# Plots 
dataSummary  <- data %>% group_by(id) %>% summarise(data_count = x())
dataSummary
plotTest <- ggplot(dataSummary, aes(id, data_count)) + geom_bar(stat = 'identity')  + ggtitle("Test Title")
plot(plotTest) 
Run Code Online (Sandbox Code Playgroud)

但是这会在执行绘图功能之前不断给出先前的警告消息.有什么指针吗?或者无论如何要抑制这些警告并进行策划?

r ggplot2 dplyr

6
推荐指数
1
解决办法
699
查看次数

如何使用最新版本的Pandas进行OLS回归

我想OLS regression estimation在以下URL中运行数据集的滚动1000窗口以进行评估:

https://drive.google.com/open?id=0B2Iv8dfU4fTUa3dPYW5tejA0bzg

我尝试使用以下Python脚本与pandas版本0.20.2.

# /usr/bin/python -tt

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from statsmodels.formula.api import ols

df = pd.read_csv('estimated.csv', names=('x','y'))

model = pd.stats.ols.MovingOLS(y=df.Y, x=df[['y']], 
                               window_type='rolling', window=1000, intercept=True)
df['Y_hat'] = model.y_predict
Run Code Online (Sandbox Code Playgroud)

但是,当我运行我的Python脚本时,我收到此错误:AttributeError: module 'pandas.stats' has no attribute 'ols'.我发现这个错误的原因是因为它从Pandas版本中删除了,因为0.20.0我们可以从以下链接看到它.

https://github.com/pandas-dev/pandas/pull/11898

我们如何OLS Regression处理最新版本的熊猫?

python numpy linear-regression python-3.x pandas

6
推荐指数
1
解决办法
3748
查看次数

Python:我们如何并行化python程序以利用GPU服务器?

在我们的实验室中,我们具有具有以下特征的NVIDIA Tesla K80 GPU加速器计算Intel(R) Xeon(R) CPU E5-2670 v3 @2.30GHz, 48 CPU processors, 128GB RAM, 12 CPU cores在Linux 64位下运行。

我正在运行以下代码,该代码GridSearchCV在将不同的数据帧集垂直追加到单个RandomForestRegressor模型系列中之后执行。我正在考虑的两个样本数据集可在此链接中找到

import sys
import imp
import glob
import os
import pandas as pd
import math
from sklearn.feature_extraction.text import CountVectorizer 
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
import matplotlib
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import numpy as np
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection …
Run Code Online (Sandbox Code Playgroud)

python gpu multi-gpu tesla python-3.x

5
推荐指数
1
解决办法
608
查看次数

Python pandas没有属性ols - 错误(滚动OLS)

对于我的评估,我想 使用以下脚本运行OLS regression estimation此URL中的数据集滚动1000窗口:https: //drive.google.com/open?id =Python 0B2Iv8dfU4fTUa3dPYW5tejA0bzg.

# /usr/bin/python -tt

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from statsmodels.formula.api import ols

df = pd.read_csv('estimated.csv', names=('x','y'))

model = pd.stats.ols.MovingOLS(y=df.Y, x=df[['y']], 
                               window_type='rolling', window=1000, intercept=True)
df['Y_hat'] = model.y_predict
Run Code Online (Sandbox Code Playgroud)

但是,当我运行我的Python脚本时,我收到此错误:AttributeError: module 'pandas.stats' has no attribute 'ols'.这个错误可能来自我正在使用的版本吗?在pandas安装我的Linux节点上有一个版本的0.20.2

python linear-regression python-3.x pandas statsmodels

4
推荐指数
1
解决办法
7403
查看次数

scikit-learn:如何以百分比计算均方根误差(RMSE)?

我有以下格式的数据集(在此链接中找到:https : //drive.google.com/open?id=0B2Iv8dfU4fTUY2ltNGVkMG05V00)。

 time     X   Y
0.000543  0  10
0.000575  0  10
0.041324  1  10
0.041331  2  10
0.041336  3  10
0.04134   4  10
  ...
9.987735  55 239
9.987739  56 239
9.987744  57 239
9.987749  58 239
9.987938  59 239
Run Code Online (Sandbox Code Playgroud)

数据集中的第三列(Y)是我的真实值-这就是我想要预测(估计)的值。我想做一个预测Y(即Y根据的前100个滚动值来预测的当前值X。为此,我python使用编写以下脚本random forest regression model

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""

@author: deshag
"""

import pandas as pd
import numpy as np
from io import StringIO
from …
Run Code Online (Sandbox Code Playgroud)

python python-3.x pandas random-forest scikit-learn

4
推荐指数
1
解决办法
3万
查看次数

gnuplot - 两个地块的交点

gnuplot用来绘制来自两个单独的csv文件(在此链接中找到:https://drive.google.com/open?id = 0B2Iv8dfU4fTUZGV6X1Bvb3c4TWs)的数据,这些文件具有不同的行数,从而生成以下图表.

在此输入图像描述

这些数据似乎在两个csv文件中都没有共同的时间戳(第一列),但gnuplot似乎符合上图所示的绘图.

这是gnuplot我用来生成情节的脚本.

# ###### GNU Plot

set style data lines
set terminal postscript eps enhanced color "Times" 20

set output "output.eps"

set title "Actual vs. Estimated Comparison"

set style line 99 linetype 1 linecolor rgb "#999999" lw 2
#set border 1 back ls 11
set key right top
set key box linestyle 50
set key width -2
set xrange [0:10]
set key spacing 1.2
#set …
Run Code Online (Sandbox Code Playgroud)

linux csv gnuplot

3
推荐指数
1
解决办法
1244
查看次数

Python - 滚动窗口 OLS 回归估计

对于我的评估,我在此链接( https://drive.google.com/drive/folders/0B2Iv8dfU4fTUMVFyYTEtWXlzYkk ) 中找到了一个数据集,格式如下。我数据集中的第三列 (Y) 是我的真实值 - 这就是我想要预测(估计)的值。

 time     X   Y
0.000543  0  10
0.000575  0  10
0.041324  1  10
0.041331  2  10
0.041336  3  10
0.04134   4  10
  ...
9.987735  55 239
9.987739  56 239
9.987744  57 239
9.987749  58 239
9.987938  59 239
Run Code Online (Sandbox Code Playgroud)

我想运行例如 5 window 的滚动OLS regression estimation,并且我已经使用以下脚本进行了尝试。

# /usr/bin/python -tt

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv('estimated_pred.csv')

model = pd.stats.ols.MovingOLS(y=df.Y, x=df[['X']], 
                               window_type='rolling', window=5, intercept=True) …
Run Code Online (Sandbox Code Playgroud)

python numpy pandas scikit-learn statsmodels

3
推荐指数
1
解决办法
8827
查看次数

SQL-操作数数据类型datetime2对于减法运算符无效

我想从列第二行的值中减去第一行的值_timestamp(如下所示)。_number是我数据中的排序列。

在此处输入图片说明

并将结果放在一个名为diff的新列中。我已经尝试使用以下查询

use dbtest

select t2._number, t2._timestamp, 
coalesce(t2._timestamp - 
    (select t1._timestamp from dbo.tcp t1 where t1._number = t2._number + 1), t2._timestamp) as diff
from dbo.tbl t2
Run Code Online (Sandbox Code Playgroud)

但我收到以下错误。

Msg 8117, Level 16, State 1, Line 4
Operand data type datetime2 is invalid for subtract operator.
Run Code Online (Sandbox Code Playgroud)

任何提示将不胜感激。我的记录非常丰富,我想将其自动应用于整个专栏中。我正在使用SQL Sever 2008。

sql sql-server-2008

2
推荐指数
1
解决办法
3347
查看次数

排除R中方差为零的变量的最快方法

我正在使用一个非常大的.csv数据集进行评估,但是却遇到了要解决的错误。

Warning in preProcess.default(data, method = c("center", "scale")) :
  These variables have zero variances: num_outbound_cmds, is_host_login
Error in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)
Run Code Online (Sandbox Code Playgroud)

在数据集中排除变量的最快方法是什么whose variance is zero (0)

r k-means

1
推荐指数
1
解决办法
2420
查看次数