我有以下所有分类变量的数据:
class education income social_standing
1 basic low good
0 low high V_good
1 high low not_good
0 v_high high good
Run Code Online (Sandbox Code Playgroud)
这里的教育有四个级别(基本,低,高和高).收入有两个层次的低点和高点; 而social_standing有三个级别(好,v_good和not_good).
就我将上述数据转换为VW格式的理解而言,它将是这样的:
1 |person education_basic income_low social_standing_good
0 |person education_low income_high social_standing_v_good
1 |person education_high income_low social_standing_not_good
0 |person education_v_high income_high social_standing_good
Run Code Online (Sandbox Code Playgroud)
这里,'person'是命名空间,所有其他都是特征值,以相应的特征名称为前缀.我对么?不知何故,这种特征值的表示对我来说非常困惑.有没有其他方式来表示功能?应该感谢你的帮助.
该featuretools在其第一句话文档状态:
“ Featuretools是执行自动化特征工程的框架。它擅长将时间和关系数据集转换为用于机器学习的特征矩阵。”
这似乎暗示数据集必须具有datetime列。我只想让它确认实际上是这样。也就是说,例如,我不能在“ iris”数据集上使用它来生成新功能吗?如果数据集不需要时间变量,我将如何使用它在“ iris”数据集上生成要素。我将不胜感激。谢谢。
我有以下各类商品的销售数据:
category year salesVolume
1 2002 45
1 2003 47
2 2002 789
2 2003 908
3 2002 333
3 2003 123
41 2002 111
41 2003 90
Run Code Online (Sandbox Code Playgroud)
现在我想比较2002年到2003年的销量,按类别划分,并将结果写为:
category salesIncreasing?
1 TRUE
2 TRUE
3 FALSE
41 FALSE
Run Code Online (Sandbox Code Playgroud)
是否可以在SQL中执行此操作.如果是这样,请告诉我.其实我使用的是Impala SQL.谢谢.
我在pandas数据框中有以下两列
256 Z
0 2 2
1 2 3
2 4 4
3 4 9
Run Code Online (Sandbox Code Playgroud)
大约有1594行.'256'和'Z'是列标题,而0,1,2,3,4是行号(上面第1列).我想打印行号,其中列'256'中的值不等于列'Z'中的值.因此,上述情况下的输出将为1,3.如何在熊猫中进行比较?我将非常感谢你的帮助.谢谢.
在R或python中进行分析时,我们只知道特征名称(它们的值)并使用它们.在Vowpal Wabbit,我们也有命名空间.
我无法理解:a.Namespace是什么意思; 湾 它与功能有何不同; C.什么时候使用?什么时候不用?也就是说,我们可以避免使用它.d.它是如何使用的?
将会感激一两个例子.很抱歉这么多问题.
namespaces command-line-arguments feature-selection vowpalwabbit
我有一个bash变量,其值如下:
10:3.0,16:4.0,32:4.0,39:2.0,65:3.0,95:4.0,110:4.0,111:4.0,2312:1.0
Run Code Online (Sandbox Code Playgroud)
价值内没有空格.该值可以很长或很短.这里对65:3.0存在如此.比方说,我知道对的第一部分中的数字的值65.我想提取数字3.0或对65:3.0.我不知道的位置(偏移)65.
我将非常感谢能够进行此类提取的bash脚本.谢谢.
以下四行将创建一个矩形网格,左下角为(-5,-5),右上角为(5,5).网格网格中每个单元格的宽度为0.55,高度为0.5.是否可以在python中显示这个创建的网格?也就是说,没有叠加任何其他功能的情节?
import numpy as np
x = np.arange(-5, 5, 0.55)
y = np.arange(-5, 5, 0.5)
xx, yy = np.meshgrid(x, y)
Run Code Online (Sandbox Code Playgroud)
我将不胜感激.谢谢.
来自 R 背景的我发现Indexpandas 中对象的(非常高)使用有点令人不安。例如,如果train是 pandas DataFrame,是否有一些特殊原因train.columns应该返回Index而不是列表?如果它是一个物体,还会有什么目的Index?根据 的定义pandas.Index,它是所有 pandas 对象存储轴标签的基本对象。虽然train.index.values返回行标签(axis=0),但如何从中获取列标签或列名称pandas.index?与之前的问题不同,在这个问题中,我想到了一个具体的例子。
非常简单地,我的问题与在 Keraspadding = 'same'代码中使用时在maxpool 层之后图像大小与输入图像大小不保持相同的问题有关。我正在浏览 Keras 博客:在 Keras 中构建自动编码器。我正在构建卷积自动编码器。自编码器代码如下:
input_layer = Input(shape=(28, 28, 1))
x = Conv2D(16, (3, 3), activation='relu', padding='same')(input_layer)
x = MaxPooling2D((2, 2), padding='same')(x)
x = Conv2D(8, (3, 3), activation='relu', padding='same')(x)
x = MaxPooling2D((2, 2), padding='same')(x)
x = Conv2D(8, (3, 3), activation='relu', padding='same')(x)
encoded = MaxPooling2D((2, 2), padding='same')(x)
# at this point the representation is (4, 4, 8) i.e. 128-dimensional
x = Conv2D(8, (3, 3), activation='relu', padding='same')(encoded)
x = UpSampling2D((2, 2))(x)
x = Conv2D(8, …Run Code Online (Sandbox Code Playgroud) 我已经下载了印度的gadm地图(SpatialPolygonsDataFrame).当我使用spplot时,它会绘制完整的印度地图以及州界.
A.是否有可能只绘制一个国家(比如阿萨姆邦)而不是其他国家的边界?
B.我可以在各自的界限内写下国家的名字吗?
C.或者假设我只想为一个特定国家而不是其他国家着色
将不胜感激.谢谢.
(示例代码如下所示.但是它绘制了完整的国家和所有国家.如果我只想在国内绘制一个国家,该怎么办)
library(sp)
library(RColorBrewer)
load("IND_adm1.RData")
abc <- read.csv("crime.csv", header = TRUE)
temp <- abc[,c(1,4)]
State = temp[1:38,1]
Offence = temp[1:38,2]
afg <- data.frame(State, Offence)
gadm$Offence <- afg[1:35,]
col <- brewer.pal(n = 9, name = "OrRd")
spplot(gadm, "Offence", col.regions = col, at = c(0,50,100,200, 500,1000, 1500,2000,2500,4000), main = "Offence")
Run Code Online (Sandbox Code Playgroud) python ×3
pandas ×2
vowpalwabbit ×2
awk ×1
bash ×1
featuretools ×1
ggplot2 ×1
gis ×1
keras-2 ×1
keras-layer ×1
matplotlib ×1
namespaces ×1
numpy ×1
r ×1
sql ×1