小编use*_*777的帖子

Vowpal Wabbit如何表示分类特征

我有以下所有分类变量的数据:

    class  education    income    social_standing
    1       basic       low       good
    0        low        high      V_good
    1        high       low       not_good
    0        v_high     high      good
Run Code Online (Sandbox Code Playgroud)

这里的教育有四个级别(基本,低,高和高).收入有两个层次的低点和高点; 而social_standing有三个级别(好,v_good和not_good).

就我将上述数据转换为VW格式的理解而言,它将是这样的:

    1 |person education_basic income_low social_standing_good
    0 |person education_low income_high social_standing_v_good
    1 |person education_high income_low social_standing_not_good
    0 |person education_v_high income_high social_standing_good
Run Code Online (Sandbox Code Playgroud)

这里,'person'是命名空间,所有其他都是特征值,以相应的特征名称为前缀.我对么?不知何故,这种特征值的表示对我来说非常困惑.有没有其他方式来表示功能?应该感谢你的帮助.

vowpalwabbit

13
推荐指数
1
解决办法
2865
查看次数

Featuretools:即使没有与日期时间相关的列,也可以将其应用于单个表以生成特征吗?

featuretools在其第一句话文档状态:

“ Featuretools是执行自动化特征工程的框架。它擅长将时间和关系数据集转换为用于机器学习的特征矩阵。”

这似乎暗示数据集必须具有datetime列。我只想让它确认实际上是这样。也就是说,例如,我不能在“ iris”数据集上使用它来生成新功能吗?如果数据集不需要时间变量,我将如何使用它在“ iris”数据集上生成要素。我将不胜感激。谢谢。

python featuretools

10
推荐指数
1
解决办法
2636
查看次数

SQL比较两行中的值

我有以下各类商品的销售数据:

category       year         salesVolume  
1              2002          45  
1              2003          47  
2              2002          789
2              2003          908
3              2002          333
3              2003          123
41             2002          111
41             2003          90
Run Code Online (Sandbox Code Playgroud)

现在我想比较2002年到2003年的销量,按类别划分,并将结果写为:

category        salesIncreasing?
1                 TRUE
2                 TRUE
3                 FALSE
41                FALSE
Run Code Online (Sandbox Code Playgroud)

是否可以在SQL中执行此操作.如果是这样,请告诉我.其实我使用的是Impala SQL.谢谢.

sql

5
推荐指数
1
解决办法
2万
查看次数

比较两列数据框中的值

我在pandas数据框中有以下两列

     256   Z
0     2    2
1     2    3
2     4    4
3     4    9
Run Code Online (Sandbox Code Playgroud)

大约有1594行.'256'和'Z'是列标题,而0,1,2,3,4是行号(上面第1列).我想打印行号,其中列'256'中的值不等于列'Z'中的值.因此,上述情况下的输出将为1,3.如何在熊猫中进行比较?我将非常感谢你的帮助.谢谢.

python pandas

5
推荐指数
3
解决办法
2万
查看次数

在Vowpal Wabbit中,命名空间和功能有什么区别?

在R或python中进行分析时,我们只知道特征名称(它们的值)并使用它们.在Vowpal Wabbit,我们也有命名空间.

我无法理解:a.Namespace是什么意思; 湾 它与功能有何不同; C.什么时候使用?什么时候不用?也就是说,我们可以避免使用它.d.它是如何使用的?

将会感激一两个例子.很抱歉这么多问题.

namespaces command-line-arguments feature-selection vowpalwabbit

4
推荐指数
1
解决办法
1407
查看次数

使用bash脚本从变量中提取子字符串

我有一个bash变量,其值如下:

10:3.0,16:4.0,32:4.0,39:2.0,65:3.0,95:4.0,110:4.0,111:4.0,2312:1.0
Run Code Online (Sandbox Code Playgroud)

价值内没有空格.该值可以很长或很短.这里对65:3.0存在如此.比方说,我知道对的第一部分中的数字的值65.我想提取数字3.0或对65:3.0.我不知道的位置(偏移)65.

我将非常感谢能够进行此类提取的bash脚本.谢谢.

bash awk

3
推荐指数
1
解决办法
254
查看次数

如何只显示meshgrid的网格

以下四行将创建一个矩形网格,左下角为(-5,-5),右上角为(5,5).网格网格中每个单元格的宽度为0.55,高度为0.5.是否可以在python中显示这个创建的网格?也就是说,没有叠加任何其他功能的情节?

import numpy as np
x = np.arange(-5, 5, 0.55)
y = np.arange(-5, 5, 0.5)
xx, yy = np.meshgrid(x, y)
Run Code Online (Sandbox Code Playgroud)

我将不胜感激.谢谢.

numpy matplotlib

3
推荐指数
1
解决办法
474
查看次数

pandas 中的索引对象——为什么 pd.columns 返回索引而不是列表

来自 R 背景的我发现Indexpandas 中对象的(非常高)使用有点令人不安。例如,如果train是 pandas DataFrame,是否有一些特殊原因train.columns应该返回Index而不是列表?如果它是一个物体,还会有什么目的Index?根据 的定义pandas.Index,它是所有 pandas 对象存储轴标签的基本对象。虽然train.index.values返回行标签(axis=0),但如何从中获取列标签或列名称pandas.index?与之前的问题不同,在这个问题中,我想到了一个具体的例子。

python pandas

3
推荐指数
1
解决办法
7917
查看次数

MaxPooling2D 后的图像形状,padding ='same' -- 计算卷积自动编码器中的逐层形状

非常简单地,我的问题与在 Keraspadding = 'same'代码中使用时在maxpool 层之后图像大小与输入图像大小不保持相同的问题有关。我正在浏览 Keras 博客:在 Keras 中构建自动编码器。我正在构建卷积自动编码器。自编码器代码如下:

input_layer = Input(shape=(28, 28, 1))
x = Conv2D(16, (3, 3), activation='relu', padding='same')(input_layer)
x = MaxPooling2D((2, 2), padding='same')(x)
x = Conv2D(8, (3, 3), activation='relu', padding='same')(x)
x = MaxPooling2D((2, 2), padding='same')(x)
x = Conv2D(8, (3, 3), activation='relu', padding='same')(x)
encoded = MaxPooling2D((2, 2), padding='same')(x)
# at this point the representation is (4, 4, 8) i.e. 128-dimensional
x = Conv2D(8, (3, 3), activation='relu', padding='same')(encoded)
x = UpSampling2D((2, 2))(x)
x = Conv2D(8, …
Run Code Online (Sandbox Code Playgroud)

deep-learning keras-layer keras-2

2
推荐指数
1
解决办法
4252
查看次数

仅映射一个印度国家并在州界内写下其名称

我已经下载了印度的gadm地图(SpatialPolygonsDataFrame).当我使用spplot时,它会绘制完整的印度地图以及州界.

A.是否有可能只绘制一个国家(比如阿萨姆邦)而不是其他国家的边界​​?

B.我可以在各自的界限内写下国家的名字吗?

C.或者假设我只想为一个特定国家而不是其他国家着色

将不胜感激.谢谢.

(示例代码如下所示.但是它绘制了完整的国家和所有国家.如果我只想在国内绘制一个国家,该怎么办)

library(sp)  
library(RColorBrewer)

load("IND_adm1.RData")
abc <- read.csv("crime.csv", header = TRUE)
temp <- abc[,c(1,4)]
State = temp[1:38,1]
Offence = temp[1:38,2]
afg <- data.frame(State, Offence)
gadm$Offence <- afg[1:35,]
col <- brewer.pal(n = 9, name = "OrRd")
spplot(gadm, "Offence", col.regions = col, at = c(0,50,100,200, 500,1000, 1500,2000,2500,4000), main = "Offence")
Run Code Online (Sandbox Code Playgroud)

gis r ggplot2

0
推荐指数
1
解决办法
2725
查看次数