标签: data-science

Pandas:如何在不使用 scikit 的情况下进行交叉验证?

我正在尝试实现我自己的交叉验证功能。我在此链接上阅读了交叉验证,并且能够将我的数据集拆分为训练和测试。但是,我如何定义折叠?例如我的数据框看起来像这样。

    Dataframe:
        MMC         MET_lep     MASS_Vis    Pt_H        Y
    0   138.70      51.65       97.82       0.91        0
    1   160.93      68.78       103.23      -999.00     0
    2   -999.00     162.17      125.95      -999.00     0
    3   143.90      81.41       80.94       -999.00     1
    4   175.86      16.91       134.80      -999.00     0
    5   -999.00     162.17      125.95      -999.00     0
    6   143.90      81.41       80.94       -999.00     1
    7   175.86      16.91       134.80      -999.00     0
    8   -999.00     162.17      125.95      -999.00     0
    9   143.90      81.41       80.94       -999.00     1
Run Code Online (Sandbox Code Playgroud)

并想要这样的输出:

For    K=3 (Folds)

When K=1
Training:
            MMC         MET_lep     MASS_Vis    Pt_H …
Run Code Online (Sandbox Code Playgroud)

python machine-learning data-analysis pandas data-science

0
推荐指数
1
解决办法
1万
查看次数

随机森林实现之间的差异

H2O 中的随机森林实现与标准随机森林库之间有性能差异吗?

有没有人对这两种实现进行过或分析过。

classification machine-learning random-forest h2o data-science

0
推荐指数
1
解决办法
1084
查看次数

如何使用 svm 预测多标签数据集

我正在使用一个包含所有十进制值和时间戳的数据集,它具有以下功能:

 1. sno
 2. timestamp
 3. v1
 4. v2
 5. v3
Run Code Online (Sandbox Code Playgroud)

我有 5 个月的数据,每分钟都有时间戳。我需要预测将来是否会随时使用 v1、v2、v3。v1、v2、v3 的值在 0 到 25 之间。

我怎样才能做到这一点 ?

我以前使用过二元分类,但我不知道如何处理多标签问题来进行预测。我一直在使用下面的代码。我应该如何训练模型以及我应该如何使用 v1、v2、v3 来适应“y”?

X_train, X_test, y_train, y_test = train_test_split(train, y, test_size=0.2)




Data:

sno power   voltage v1  v2  v3  timestamp
1   3.74    235.24  0   16  18  2006-12-16 18:03:00
2   4.928   237.14  0   37  16  2006-12-16 18:04:00
3   6.052   236.73  0   37  17  2006-12-16 18:05:00
4   6.752   237.06  0   36  17  2006-12-16 18:06:00
5   6.474   237.13  0   37  16  2006-12-16 …
Run Code Online (Sandbox Code Playgroud)

machine-learning scikit-learn multilabel-classification data-science

0
推荐指数
1
解决办法
2270
查看次数

布隆过滤器在交叉点/联合上的误报率会增加吗?

没有找到任何关于此的内容,所以我希望我的问题能在这里找到答案。

问题集:

一切都属于使用布隆过滤器的提升挖掘。

我有数千个布隆过滤器,最大容量为 M,每个过滤器中的项目数为 N。

对于N在任何情况下都不会到达 M的情况。

误报概率 P - 0.001%

在我的问题中,我需要从几个到 ±5 个增量交叉点逐步执行,

A?乙?C ?迪...

将针对不同长度的不同集合组合的任意大数量(或小数量,取决于我的成本函数)执行此类操作

一种 ?乙; 一种 ?? K; ? ? ……?Z; 等等。

所有接收到的(新的)交集作为布隆过滤器(BF?i),将通过联合操作进行组合,

BF1 U BF2 U ... U BFi


问题:

布隆过滤器上的此类操作是否会影响最终组合布隆过滤器(多个交叉点的并集)的误报率,因为我可能有很多这样的操作?

我如何估计我的案例可能的准确度/精确度损失(或者误报率增加)?

将非常感谢对相关材料的任何提示或指导!

probability bloom-filter bigdata data-structures data-science

0
推荐指数
1
解决办法
902
查看次数

0
推荐指数
1
解决办法
8488
查看次数

seaborn 的 coefplot 函数抛出错误

我正在尝试使用 seaborn 的coefplot函数,但它没有显示输出。相反,我收到一个错误:

AttributeError:模块“seaborn”没有属性“coefplot”。

myresultsmyresult .env_corr(env_vars)
def env_corr(self, env_vars, coeff_plot=False, qq_plot=False):
    """
    Determine correlations with environmental/non-discretionary variables
    using a logit regression. Tobit will be implemented when available
    upstream in statsmodels.

    Takes:
        env_vars: A pandas dataframe of environmental variables

    Returns:
        corr_mod: the statsmodels' model instance containing the inputs
                  and results from the logit model.

    Note that there can be no spaces in the variables' names.
    """

    import matplotlib.pyplot as plt
    from statsmodels.regression.linear_model import OLS
    from statsmodels.graphics.gofplots import qqplot
    import …
Run Code Online (Sandbox Code Playgroud)

python seaborn data-science

0
推荐指数
1
解决办法
1217
查看次数

如何每隔一行读取一个 CSV 文件

如何每 2 行从 CSV 文件中获取数据?

例如,如果我有一个看起来像这样的文件

  0   1
0 23  34
1 45  45
2 78  16
3 110 78
4 48  14
5 76  23
6 55  33
7 12  13
8 18  76

Run Code Online (Sandbox Code Playgroud)

如何迭代和提取每第二行以获得类似的内容并附加到新的数据帧中?

0 23  34
2 78  16
4 48  14
6 55  33
8 18  76
Run Code Online (Sandbox Code Playgroud)

谢谢!

python numpy pandas data-science

0
推荐指数
1
解决办法
2168
查看次数

使用 Keras 进行单批次训练时,准确性会下降吗?

通常,当使用 Keras 训练深度神经网络时,训练准确性会在单批次训练期间提高。

就像这样,

2019-08-03 13:33:22 PST10/189 [>.............................] - ETA: 9s - loss: 0.6919 - acc: 0.8000
2019-08-03 13:33:22 PST20/189 [==>...........................] - ETA: 4s - loss: 0.6905 - acc: 0.9000
2019-08-03 13:33:22 PST40/189 [=====>........................] - ETA: 2s - loss: 0.6879 - acc: 0.9500
2019-08-03 13:33:22 PST60/189 [========>.....................] - ETA: 1s - loss: 0.6852 - acc: 0.9667
2019-08-03 13:33:22 PST80/189 [===========>..................] - ETA: 1s - loss: 0.6821 - acc: 0.9750
2019-08-03 13:33:22 PST90/189 [=============>................] - ETA: 1s - loss: 0.6806 - …
Run Code Online (Sandbox Code Playgroud)

python deep-learning keras data-science tensorflow

0
推荐指数
1
解决办法
899
查看次数

为什么 np.empty() 和 np.zeros() 返回不同的值?

我正在尝试使用 np.empty() 创建一个查找表,但是当我打印数组时,我意识到数组中的 velues 不是零。当我搜索它时,我发现 np.zeros() 和 np.empty() 都将 0 分配给所有值,但在分配时做不同的事情。我的意思是为什么 np.empty() 不返回一个充满零的数组?分配差异的处理是什么?

这是我的代码:


import numpy as np

lookUpTable = np.empty((1,256), np.uint8)
print(lookUpTable[0,2])
print(lookUpTable)

gamma=0.4
for i in range(256):
    lookUpTable[0,i] = np.clip(pow(i / 255.0, gamma) * 255.0, 0, 255)
print(lookUpTable)

Run Code Online (Sandbox Code Playgroud)

这是他们给的任务:

np.zeros()

[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 …
Run Code Online (Sandbox Code Playgroud)

python numpy data-science

0
推荐指数
2
解决办法
109
查看次数

计算 R 中每个 id 的平均重复次数

我的数据如下所示:

ID 日期
1 一种
1 一种
1
1 C
1 C
1 C
2 z
2 z
2 电子
2 X

我想计算每个 id 重复次数的平均值,即对于 id=1 我们有 2a 1b 3c 我希望输出为 2。结果应该是这样的:

ID 意思
1 2
2 1.333

r data-science

0
推荐指数
1
解决办法
106
查看次数