标签: dummy-variable

从多个列创建虚拟变量并创建新的数据帧

我需要根据调查数据制作一个虚拟数据框,其中受访者在数据框中的几列中说出了单词.这是一个简化的例子来说明我需要做什么？这里用一个字母表示一个单词.

id <- c(1:6)
v.1 <- c("a","b","d","e","a","c")
v.2 <- c("b","a","a","a","b","a")
v.3 <- c("e","c","b","b","e","b")

df <- data.frame(id,v.1,v.2,v.3)

> df
  id v.1 v.2 v.3
1  1   a   b   e
2  2   b   a   c
3  3   d   a   b
4  4   e   a   b
5  5   a   b   e
6  6   c   a   b

Run Code Online (Sandbox Code Playgroud)

这是我想要的输出？

> print(df.dummy)
   id  a b c d e
1:   1 1 1 0 0 1
2:   2 1 1 1 0 0
3:   3 1 1 0 …

Run Code Online (Sandbox Code Playgroud)

r dataframe dummy-variable

jon*_*nas

2015 09-21

1
推荐指数

1
解决办法

1380
查看次数

隐藏回归汇总中的一些系数，同时仍返回调用、r 平方和其他汇总输出

我的问题是，类似这样的一个，但是我很感兴趣，返回所有的其它输出，而不仅仅是系数。这是示例代码，使我的问题更清楚。

data=as.data.frame(matrix(rnorm(50*50),50,50))
summary(lm(data[,1]~.-data[,1],data=data))

Run Code Online (Sandbox Code Playgroud)

我只想输出说前 5 个系数。我知道我可以用来做到这一点 summary(lm(data[,1]~.-data[,1],data=data))$coeff[1:5,]，但这会摆脱我想要的所有其他输出。我也知道我可以单独获得每个输出，我只是想知道是否有一种简洁的方式来编写单行并删除我不想报告的变量。

regression r summary output dummy-variable

Bob*_*ant

2020 06-20

1
推荐指数

1
解决办法

4424
查看次数

基于R中的二进制指标动态创建变量

我有用户级数据,如下所示:

ID  V1 V2 V3 V4
001 1  0  1  0
002 0  1  0  1
003 0  0  0  0
004 1  1  1  0

Run Code Online (Sandbox Code Playgroud)

在上面的例子中,我想要一个优雅的解决方案(可能使用tidyr)来动态重构它,使其显示为:

ID  Num_Vars Var1 Var2 Var3
001 2        V1   V3   NA
002 2        V2   V4   NA
003 0        NA   NA   NA
004 3        V1   V2   V3

Run Code Online (Sandbox Code Playgroud)

请注意,此示例已简化,实际上存在许多变量.关键是要根据Var1-VarX中为任何用户填充的最大1个数来检测应创建多少变量的代码.

refactoring r dynamic tidyr dummy-variable

Rob*_*sey

lucky-day

1
推荐指数

1
解决办法

81
查看次数

R因子函数在长数据帧下运行缓慢

我有一个很长的数据框（数百万行，几列）。为了运行固定效应回归，我想使用该factor函数将分类变量声明为因子，但这非常慢。我正在寻找一种可能的解决方案来加快速度。

我的代码如下：

library(lfe)
my_data=read.csv("path_to//data.csv")
attach(data.frame(my_data))

Run Code Online (Sandbox Code Playgroud)

以下是非常慢的线路：

my_data$col <- factor(my_data$col)

Run Code Online (Sandbox Code Playgroud)

performance r dataframe categorical-data dummy-variable

spl*_*ter

lucky-day

1
推荐指数

1
解决办法

895
查看次数

为 Pandas 中的 n 个最大值生成虚拟变量

我有一个像这样构建的数据库：

>>> df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4],'value':[1,2,3,1,2,3,4,1,1]})

>>> df

    id  value    
0   1      1    
1   1      2    
2   1      3    
3   2      1    
4   2      2    
5   2      3    
6   2      4    
7   3      1    
8   4      1

Run Code Online (Sandbox Code Playgroud)

并且我想为每个 ID 的第 n 个最大值生成一个虚拟变量（此处为 n = 2），以便对于所有第 n 个最大值之一的值等于 1：

    id  value  Largest 
0   1      1     0    
1   1      2     1    
2   1      3     1    
3   2      1     0    
4   2      2     0    
5   2      3     1    
6   2      4     1    
7   3 …

Run Code Online (Sandbox Code Playgroud)

python pandas dummy-variable

AVL*_*AVL

2018 08-18

1
推荐指数

1
解决办法

446
查看次数

使用星期几、一天中的小时和媒体类型创建回归模型？

在Jupyter笔记本中使用 Python 3 。我正在尝试创建一个回归模型（方程？）来预测Eng as % of Followers变量。我会得到Media Type, Hour Created, 和Day of Week。这些都应该被视为分类变量。

这是我过去的一些数据。

    Media Type  Eng as % of Followers   Hour Created    Day of Week
0   Video   0.0136  23  Tuesday
1   Video   0.0163  22  Wednesday
2   Video   0.0163  22  Tuesday
3   Video   0.0196  22  Friday
4   Video   0.0179  20  Thursday
5   Photo   0.0087  14  Wednesday

Run Code Online (Sandbox Code Playgroud)

我已经创建了dummy variablesusing pd.get_dummies，但我不确定我做对了 - 问题特别在于Hour Created变量。它们是数字，但我希望它们被视为类别。例如，第 22 小时可能是一个性能助推器，但这不应暗示第 21 …

python regression categorical-data dummy-variable

Cor*_*ide

2019 07-06

1
推荐指数

1
解决办法

1574
查看次数

如何对某些字符串变量应用sklearn的线性回归

我将使用逻辑回归来预测电影的票房.我得到了一些火车数据,包括演员和导演.这是我的数据:

Director1|Actor1|300 million
Director2|Actor2|500 million

Run Code Online (Sandbox Code Playgroud)

我将使用整数对导演和演员进行编码.

1|1|300 million
2|2|300 million

Run Code Online (Sandbox Code Playgroud)

这意味着X={[1,1],[2,2]} y=[300,500]和fit(X,y) 运作的？

python linear-regression scikit-learn dummy-variable

Ken*_*awa

2016 07-17

0
推荐指数

1
解决办法

569
查看次数

如何将逗号分隔的多个响应转换为 R 中的虚拟编码列

在一项调查中，有一个问题是“课程的哪个方面对您学习概念帮助最大？选择所有适用的”

以下是回复列表的样子：

Student_ID = c(1,2,3)
Responses = c("lectures,tutorials","tutorials,assignments,lectures", "assignments,presentations,tutorials")
Grades = c(1.1,1.2,1.3)
Data = data.frame(Student_ID,Responses,Grades);Data

Student_ID | Responses                           | Grades
1          | lectures,tutorials                  | 1.1
2          | tutorials,assignments,lectures      | 1.2
3          | assignments,presentations,tutorials | 1.3

Run Code Online (Sandbox Code Playgroud)

现在我想创建一个看起来像这样的数据框

Student_ID | Lectures | Tutorials | Assignments | Presentation | Grades
1          |     1    |     1     |      0      |       0      |  1.3
2          |     1    |     1     |      1      |       0      |  1.4
3          |     0    |     1     |      1      |       1      |  1.3 …

Run Code Online (Sandbox Code Playgroud)

r surveymonkey dummy-variable

San*_*afa

2019 05-23

0
推荐指数

1
解决办法

864
查看次数

如何在 Haskell 中使用骨架程序

下面简单介绍一下字典程序是如何构建的

dictionary = [
    ("thanks",["danke"]),
    ("always",["immer"]),
    ("us", ["uns"])
      ]

Run Code Online (Sandbox Code Playgroud)

正如你从字典中看到的，字符串成对出现

(string, [string])

Run Code Online (Sandbox Code Playgroud)

haskell dummy-variable

the*_*ord

2021 10-08

-2
推荐指数

1
解决办法

255
查看次数

标签统计

dummy-variable ×9

r ×5

python ×3

categorical-data ×2

dataframe ×2

regression ×2

dynamic ×1

haskell ×1

linear-regression ×1

output ×1

pandas ×1

performance ×1

refactoring ×1

scikit-learn ×1

summary ×1

surveymonkey ×1

tidyr ×1

标签 统计

标签统计