我需要根据调查数据制作一个虚拟数据框,其中受访者在数据框中的几列中说出了单词.这是一个简化的例子来说明我需要做什么?这里用一个字母表示一个单词.
id <- c(1:6)
v.1 <- c("a","b","d","e","a","c")
v.2 <- c("b","a","a","a","b","a")
v.3 <- c("e","c","b","b","e","b")
df <- data.frame(id,v.1,v.2,v.3)
> df
id v.1 v.2 v.3
1 1 a b e
2 2 b a c
3 3 d a b
4 4 e a b
5 5 a b e
6 6 c a b
Run Code Online (Sandbox Code Playgroud)
这是我想要的输出?
> print(df.dummy)
id a b c d e
1: 1 1 1 0 0 1
2: 2 1 1 1 0 0
3: 3 1 1 0 …Run Code Online (Sandbox Code Playgroud) 我的问题是,类似这样的一个,但是我很感兴趣,返回所有的其它输出,而不仅仅是系数。这是示例代码,使我的问题更清楚。
data=as.data.frame(matrix(rnorm(50*50),50,50))
summary(lm(data[,1]~.-data[,1],data=data))
Run Code Online (Sandbox Code Playgroud)
我只想输出说前 5 个系数。我知道我可以用 来做到这一点
summary(lm(data[,1]~.-data[,1],data=data))$coeff[1:5,],但这会摆脱我想要的所有其他输出。我也知道我可以单独获得每个输出,我只是想知道是否有一种简洁的方式来编写单行并删除我不想报告的变量。
我有用户级数据,如下所示:
ID V1 V2 V3 V4
001 1 0 1 0
002 0 1 0 1
003 0 0 0 0
004 1 1 1 0
Run Code Online (Sandbox Code Playgroud)
在上面的例子中,我想要一个优雅的解决方案(可能使用tidyr)来动态重构它,使其显示为:
ID Num_Vars Var1 Var2 Var3
001 2 V1 V3 NA
002 2 V2 V4 NA
003 0 NA NA NA
004 3 V1 V2 V3
Run Code Online (Sandbox Code Playgroud)
请注意,此示例已简化,实际上存在许多变量.关键是要根据Var1-VarX中为任何用户填充的最大1个数来检测应创建多少变量的代码.
我有一个很长的数据框(数百万行,几列)。为了运行固定效应回归,我想使用该factor函数将分类变量声明为因子,但这非常慢。我正在寻找一种可能的解决方案来加快速度。
我的代码如下:
library(lfe)
my_data=read.csv("path_to//data.csv")
attach(data.frame(my_data))
Run Code Online (Sandbox Code Playgroud)
以下是非常慢的线路:
my_data$col <- factor(my_data$col)
Run Code Online (Sandbox Code Playgroud) 我有一个像这样构建的数据库:
>>> df = pd.DataFrame({'id':[1,1,1,2,2,2,2,3,4],'value':[1,2,3,1,2,3,4,1,1]})
>>> df
id value
0 1 1
1 1 2
2 1 3
3 2 1
4 2 2
5 2 3
6 2 4
7 3 1
8 4 1
Run Code Online (Sandbox Code Playgroud)
并且我想为每个 ID 的第 n 个最大值生成一个虚拟变量(此处为 n = 2),以便对于所有第 n 个最大值之一的值等于 1:
id value Largest
0 1 1 0
1 1 2 1
2 1 3 1
3 2 1 0
4 2 2 0
5 2 3 1
6 2 4 1
7 3 …Run Code Online (Sandbox Code Playgroud) 在Jupyter笔记本中使用 Python 3 。我正在尝试创建一个回归模型(方程?)来预测Eng as % of Followers变量。我会得到Media Type, Hour Created, 和Day of Week。这些都应该被视为分类变量。
这是我过去的一些数据。
Media Type Eng as % of Followers Hour Created Day of Week
0 Video 0.0136 23 Tuesday
1 Video 0.0163 22 Wednesday
2 Video 0.0163 22 Tuesday
3 Video 0.0196 22 Friday
4 Video 0.0179 20 Thursday
5 Photo 0.0087 14 Wednesday
Run Code Online (Sandbox Code Playgroud)
我已经创建了dummy variablesusing pd.get_dummies,但我不确定我做对了 - 问题特别在于Hour Created变量。它们是数字,但我希望它们被视为类别。例如,第 22 小时可能是一个性能助推器,但这不应暗示第 21 …
我将使用逻辑回归来预测电影的票房.我得到了一些火车数据,包括演员和导演.这是我的数据:
Director1|Actor1|300 million
Director2|Actor2|500 million
Run Code Online (Sandbox Code Playgroud)
我将使用整数对导演和演员进行编码.
1|1|300 million
2|2|300 million
Run Code Online (Sandbox Code Playgroud)
这意味着X={[1,1],[2,2]} y=[300,500]和fit(X,y)
运作的?
在一项调查中,有一个问题是“课程的哪个方面对您学习概念帮助最大?选择所有适用的”
以下是回复列表的样子:
Student_ID = c(1,2,3)
Responses = c("lectures,tutorials","tutorials,assignments,lectures", "assignments,presentations,tutorials")
Grades = c(1.1,1.2,1.3)
Data = data.frame(Student_ID,Responses,Grades);Data
Student_ID | Responses | Grades
1 | lectures,tutorials | 1.1
2 | tutorials,assignments,lectures | 1.2
3 | assignments,presentations,tutorials | 1.3
Run Code Online (Sandbox Code Playgroud)
现在我想创建一个看起来像这样的数据框
Student_ID | Lectures | Tutorials | Assignments | Presentation | Grades
1 | 1 | 1 | 0 | 0 | 1.3
2 | 1 | 1 | 1 | 0 | 1.4
3 | 0 | 1 | 1 | 1 | 1.3 …Run Code Online (Sandbox Code Playgroud) 下面简单介绍一下字典程序是如何构建的
dictionary = [
("thanks",["danke"]),
("always",["immer"]),
("us", ["uns"])
]
Run Code Online (Sandbox Code Playgroud)
正如你从字典中看到的,字符串成对出现
(string, [string])
Run Code Online (Sandbox Code Playgroud) r ×5
python ×3
dataframe ×2
regression ×2
dynamic ×1
haskell ×1
output ×1
pandas ×1
performance ×1
refactoring ×1
scikit-learn ×1
summary ×1
surveymonkey ×1
tidyr ×1