在R中运行多元回归后,回归摘要会显示带有星号的重要变量.在我正在研究的数据集中,有近2000个变量,R确定的重要变量包含50多个变量.有没有什么方法可以从回归总结中单独获得重要变量列表.
我目前正在(开始)我的大数据和数据可视化项目.所以请告诉我是否有最好的软件来处理大数据和数据可视化,即用于数据分析.
我是pandas数据分析库的新手.我需要完成的任务如下:
给定具有一组列的数据框(表)C,选择列子集中的值A相同的所有行,并将它们组合到单个行中,其中对其他行的值进行C \ A平均.
(目标是测试程序的多次运行,并在参数相同的情况下平均值,如运行时间.)
例如:
a b c d
eggs ham 1.0 0.0
eggs ham 0.0 0.5
spam eggs 0.0 1.0
spam eggs 0.0 1.0
Run Code Online (Sandbox Code Playgroud)
应结合起来:
a b c d
eggs ham 0.5 0.25
spam eggs 0.0 1.0
Run Code Online (Sandbox Code Playgroud)
选择列时a和b(这意味着c与d应该进行平均).
我有什么选择?
好的,所以你有一些整数数组形式的历史数据.例如,这可以在两年的时间内表示服务器HDD上的自由空间,每个数组元素代表每日样本.
数据(此示例中的自由空间)具有下降趋势,但也具有周期性的正峰值,其中文件已被移除/压缩,等等.
您将如何确定两年期的整体趋势,即:消除数据中的高峰和低谷?
现在,我在我的学位上做了A级统计,然后是统计模块,但是从那以后我已经睡了7000多次了,好吧,它已经从我的大脑中泄漏了.
我不是在考虑一些代码,更多的描述你如何解决这个问题......
提前致谢!
我有一个以下矩阵
aa =
245.2708 2.6912 21.0000
245.2778 2.3969 21.0000
245.2847 4.9097 21.0000
245.2917 5.5113 21.0000
245.2986 6.9260 21.0000
245.3056 20.5392 21.0000
245.3403 40.6676 21.0000
245.3472 28.8638 21.0000
245.3542 45.3048 21.0000
245.3611 47.9512 21.0000
245.3681 NaN NaN
245.3889 15.3675 21.0000
245.3958 15.0250 21.0000
Time =aa(:,1);
x =aa(:,2);
y =aa(:,3);
Run Code Online (Sandbox Code Playgroud)
现在我需要创建一个新的向量'z',当'x'大于'y'时它应包含'x'的所有值,如果'x'小于'y',则用'z'填充'z' Y".'z'的输出看起来如下.
z =
21
21
21
21
21
21
40.6676
28.8638
45.3048
47.9512
NaN
21
21
Run Code Online (Sandbox Code Playgroud) 我是R的新手,这可能是一个非常简单的问题.我只是无法进行rsum/apply工作
我的任务是在我的数据框中添加所有不同的费用类别,并创建一个具有此值的新变量,如下所示:
(不是原件)
Food Dress Car
235 564 532
452 632 719
... ... ...
Run Code Online (Sandbox Code Playgroud)
然后
Food Dress Car Total
235 564 532 1331
452 632 719 1803
... ... ... ...
Run Code Online (Sandbox Code Playgroud)
我试过了:
rowsum,apply和aggregate,无法正确使用
我正在尝试为线性回归实现一个简单的梯度下降算法.我正在使用Armadillo C++线性代数库,而且我也是Armadillo的新手.这就是我想要做的:
void linRegression(mat &features, mat &targets, double alpha,double error){
mat theta = ones(features.n_cols+1);
mat temp = zeros(features.n_cols+1);
mat features_new = join_horiz(ones(features.n_rows),features);
mat predictions;
double con = alpha*(1.0/features.n_rows);
int j = 0;
while(j<1000){
mat step_error = (features_new*theta - targets);
for(unsigned int i=0;i<theta.n_rows;i++){
temp(i) = con*sum(step_error%features_new.col(i));
}
theta = theta-temp;
mat pred = predict(theta,features_new);
cout<<theta<<endl;
j++;
}
}
Run Code Online (Sandbox Code Playgroud)
但theta的值不断增加并最终达到无穷大.我不确定我做错了什么.
c++ machine-learning data-analysis linear-regression armadillo
我有以下数据框,数据集已经从数据库表中导入,并且 created_at 列具有字符类型:
sale_id created_at
1 2016-05-28T05:53:31.042Z
2 2016-05-30T12:50:58.184Z
3 2016-05-23T10:22:18.858Z
4 2016-05-27T09:20:15.158Z
5 2016-05-21T08:30:17.337Z
6 2016-05-28T07:41:14.361Z
Run Code Online (Sandbox Code Playgroud)
如何从 created_at 列中仅提取小时和分钟,最好使用基本 r 库?我需要稍后将小时和分钟粘贴在一起并将其作为新列。
我试图根据时间戳列表确定它是白天还是晚上.如果我只检查上午7:00到下午6:00之间的小时将其归类为"日",否则"夜晚",这是否正确?就像我在下面的代码中所做的那样.我不确定这一点,因为有时甚至在下午6点之后这一天,那么使用python来区分白天或黑夜的准确方法是什么?
sample data: (timezone= utc/zulutime)
timestamps = ['2015-03-25 21:15:00', '2015-06-27 18:24:00', '2015-06-27 18:22:00', '2015-06-27 18:21:00', '2015-07-07 07:53:00']
Code:
for timestamp in timestamps:
time = datetime.datetime.strptime(timestamp, "%Y-%m-%d %H:%M:%S")
hr, mi = (time.hour, time.minute)
if hr>=7 and hr<18: print ("daylight")
else: print ("evening or night")
sample output:
evening or night
evening or night
evening or night
evening or night
daylight
Run Code Online (Sandbox Code Playgroud) 我正在尝试实现我自己的交叉验证功能。我在此链接上阅读了交叉验证,并且能够将我的数据集拆分为训练和测试。但是,我如何定义折叠?例如我的数据框看起来像这样。
Dataframe:
MMC MET_lep MASS_Vis Pt_H Y
0 138.70 51.65 97.82 0.91 0
1 160.93 68.78 103.23 -999.00 0
2 -999.00 162.17 125.95 -999.00 0
3 143.90 81.41 80.94 -999.00 1
4 175.86 16.91 134.80 -999.00 0
5 -999.00 162.17 125.95 -999.00 0
6 143.90 81.41 80.94 -999.00 1
7 175.86 16.91 134.80 -999.00 0
8 -999.00 162.17 125.95 -999.00 0
9 143.90 81.41 80.94 -999.00 1
Run Code Online (Sandbox Code Playgroud)
并想要这样的输出:
For K=3 (Folds)
When K=1
Training:
MMC MET_lep MASS_Vis Pt_H …Run Code Online (Sandbox Code Playgroud) data-analysis ×10
pandas ×3
python ×3
r ×3
dataframe ×2
statistics ×2
algorithm ×1
armadillo ×1
bigdata ×1
c++ ×1
data-science ×1
datetime ×1
matlab ×1
posixlt ×1
trend ×1