标签: data-analysis

在R中,如何在运行具有大量变量的多元回归之后仅提取重要变量

在R中运行多元回归后,回归摘要会显示带有星号的重要变量.在我正在研究的数据集中,有近2000个变量,R确定的重要变量包含50多个变量.有没有什么方法可以从回归总结中单独获得重要变量列表.

r data-analysis linear-regression

0
推荐指数
1
解决办法
1878
查看次数

处理大数据和数据可视化的最佳工具

我目前正在(开始)我的大数据和数据可视化项目.所以请告诉我是否有最好的软件来处理大数据和数据可视化,即用于数据分析.

data-visualization data-analysis bigdata

0
推荐指数
1
解决办法
610
查看次数

在pandas数据帧中选择和平均值

我是pandas数据分析库的新手.我需要完成的任务如下:

给定具有一组列的数据框(表)C,选择列子集中的值A相同的所有行,并将它们组合到单个行中,其中对其他行的值进行C \ A平均.

(目标是测试程序的多次运行,并在参数相同的情况下平均值,如运行时间.)

例如:

a       b       c       d
eggs    ham     1.0     0.0
eggs    ham     0.0     0.5
spam    eggs    0.0     1.0
spam    eggs    0.0     1.0
Run Code Online (Sandbox Code Playgroud)

应结合起来:

a       b       c       d
eggs    ham     0.5     0.25
spam    eggs    0.0     1.0
Run Code Online (Sandbox Code Playgroud)

选择列时ab(这意味着cd应该进行平均).

我有什么选择?

python data-analysis dataframe pandas

0
推荐指数
1
解决办法
417
查看次数

简单的趋势分析算法

好的,所以你有一些整数数组形式的历史数据.例如,这可以在两年的时间内表示服务器HDD上的自由空间,每个数组元素代表每日样本.

数据(此示例中的自由空间)具有下降趋势,但也具有周期性的正峰值,其中文件已被移除/压缩,等等.

您将如何确定两年期的整体趋势,即:消除数据中的高峰和低谷?

现在,我在我的学位上做了A级统计,然后是统计模块,但是从那以后我已经睡了7000多次了,好吧,它已经从我的大脑中泄漏了.

我不是在考虑一些代码,更多的描述你如何解决这个问题......

提前致谢!

algorithm statistics data-analysis trend

0
推荐指数
1
解决办法
4754
查看次数

基于限制在matlab中创建一个新的向量

我有一个以下矩阵

 aa =
  245.2708    2.6912   21.0000
  245.2778    2.3969   21.0000
  245.2847    4.9097   21.0000
  245.2917    5.5113   21.0000
  245.2986    6.9260   21.0000
  245.3056   20.5392   21.0000
  245.3403   40.6676   21.0000
  245.3472   28.8638   21.0000
  245.3542   45.3048   21.0000
  245.3611   47.9512   21.0000
  245.3681   NaN       NaN
  245.3889   15.3675   21.0000
  245.3958   15.0250   21.0000

 Time =aa(:,1);
 x    =aa(:,2);
 y    =aa(:,3);
Run Code Online (Sandbox Code Playgroud)

现在我需要创建一个新的向量'z',当'x'大于'y'时它应包含'x'的所有值,如果'x'小于'y',则用'z'填充'z' Y".'z'的输出看起来如下.

z =

  21
  21
  21
  21
  21
  21
  40.6676
  28.8638
  45.3048
  47.9512
  NaN
  21
  21
Run Code Online (Sandbox Code Playgroud)

matlab data-analysis

0
推荐指数
1
解决办法
64
查看次数

R行汇总到一个新列

我是R的新手,这可能是一个非常简单的问题.我只是无法进行rsum/apply工作

我的任务是在我的数据框中添加所有不同的费用类别,并创建一个具有此值的新变量,如下所示:

(不是原件)

Food      Dress    Car
235       564      532
452       632      719 
...       ...      ...
Run Code Online (Sandbox Code Playgroud)

然后

Food      Dress    Car     Total
235       564      532     1331
452       632      719     1803
...       ...      ...     ...
Run Code Online (Sandbox Code Playgroud)

我试过了:

rowsum,apply和aggregate,无法正确使用

statistics r data-analysis

0
推荐指数
1
解决办法
354
查看次数

线性回归的梯度下降不起作用

我正在尝试为线性回归实现一个简单的梯度下降算法.我正在使用Armadillo C++线性代数库,而且我也是Armadillo的新手.这就是我想要做的:

void linRegression(mat &features, mat &targets, double alpha,double error){
    mat theta = ones(features.n_cols+1);
    mat temp = zeros(features.n_cols+1);
    mat features_new = join_horiz(ones(features.n_rows),features);
    mat predictions;
    double con = alpha*(1.0/features.n_rows);
    int j = 0;
    while(j<1000){
        mat step_error = (features_new*theta - targets);
        for(unsigned int i=0;i<theta.n_rows;i++){
            temp(i) = con*sum(step_error%features_new.col(i));
        }
        theta = theta-temp;
        mat pred = predict(theta,features_new);
        cout<<theta<<endl;
        j++;
    }
}
Run Code Online (Sandbox Code Playgroud)

但theta的值不断增加并最终达到无穷大.我不确定我做错了什么.

c++ machine-learning data-analysis linear-regression armadillo

0
推荐指数
1
解决办法
408
查看次数

从r中的字符列中提取小时和分钟

我有以下数据框,数据集已经从数据库表中导入,并且 created_at 列具有字符类型:

sale_id      created_at
1               2016-05-28T05:53:31.042Z
2               2016-05-30T12:50:58.184Z
3               2016-05-23T10:22:18.858Z
4               2016-05-27T09:20:15.158Z
5               2016-05-21T08:30:17.337Z
6               2016-05-28T07:41:14.361Z
Run Code Online (Sandbox Code Playgroud)

如何从 created_at 列中仅提取小时和分钟,最好使用基本 r 库?我需要稍后将小时和分钟粘贴在一起并将其作为新列。

datetime r data-analysis dataframe posixlt

0
推荐指数
1
解决办法
2774
查看次数

熊猫:如何使用时间戳知道它的白天或黑夜?

我试图根据时间戳列表确定它是白天还是晚上.如果我只检查上午7:00到下午6:00之间的小时将其归类为"日",否则"夜晚",这是否正确?就像我在下面的代码中所做的那样.我不确定这一点,因为有时甚至在下午6点之后这一天,那么使用python来区分白天或黑夜的准确方法是什么?

sample data: (timezone= utc/zulutime)
    timestamps = ['2015-03-25 21:15:00', '2015-06-27 18:24:00', '2015-06-27 18:22:00', '2015-06-27 18:21:00', '2015-07-07 07:53:00']

Code:  
    for timestamp in timestamps:
        time = datetime.datetime.strptime(timestamp, "%Y-%m-%d %H:%M:%S")
        hr, mi = (time.hour, time.minute)
        if hr>=7 and hr<18: print ("daylight")
        else: print ("evening or night")

sample output:
evening or night
evening or night
evening or night
evening or night
daylight
Run Code Online (Sandbox Code Playgroud)

python data-analysis python-datetime pandas

0
推荐指数
1
解决办法
3143
查看次数

Pandas:如何在不使用 scikit 的情况下进行交叉验证?

我正在尝试实现我自己的交叉验证功能。我在此链接上阅读了交叉验证,并且能够将我的数据集拆分为训练和测试。但是,我如何定义折叠?例如我的数据框看起来像这样。

    Dataframe:
        MMC         MET_lep     MASS_Vis    Pt_H        Y
    0   138.70      51.65       97.82       0.91        0
    1   160.93      68.78       103.23      -999.00     0
    2   -999.00     162.17      125.95      -999.00     0
    3   143.90      81.41       80.94       -999.00     1
    4   175.86      16.91       134.80      -999.00     0
    5   -999.00     162.17      125.95      -999.00     0
    6   143.90      81.41       80.94       -999.00     1
    7   175.86      16.91       134.80      -999.00     0
    8   -999.00     162.17      125.95      -999.00     0
    9   143.90      81.41       80.94       -999.00     1
Run Code Online (Sandbox Code Playgroud)

并想要这样的输出:

For    K=3 (Folds)

When K=1
Training:
            MMC         MET_lep     MASS_Vis    Pt_H …
Run Code Online (Sandbox Code Playgroud)

python machine-learning data-analysis pandas data-science

0
推荐指数
1
解决办法
1万
查看次数