R:使用因子

Question

R:使用因子

我有一些数据:

transaction <- c(1,2,3);
date <- c("2010-01-31","2010-02-28","2010-03-31");
type <- c("debit", "debit", "credit");
amount <- c(-500, -1000.97, 12500.81);
oldbalance <- c(5000, 4500, 17000.81)
evolution <- data.frame(transaction, date, type, amount, oldbalance, row.names=transaction,  stringsAsFactors=FALSE);
evolution$date <- as.Date(evolution$date, "%Y-%m-%d");
evolution <- transform(evolution, newbalance = oldbalance + amount);
evolution

Run Code Online (Sandbox Code Playgroud)

如果我输入命令:

type <- factor(type)

Run Code Online (Sandbox Code Playgroud)

type名义(分类)变量在哪里,那么它对我的数据有什么不同？

谢谢

Answer 1

N B*_*wer 12

进行统计时的因素与特征向量: 在统计方面,R对待因子和特征向量的方式没有区别.实际上,通常更容易将因子变量留作字符向量.

如果你使用带有字符向量的lm()进行回归或ANOVA作为分类变量,你将获得正常的模型输出但是带有以下消息:

Warning message:
In model.matrix.default(mt, mf, contrasts) :
  variable 'character_x' converted to a factor

Run Code Online (Sandbox Code Playgroud)

操纵数据帧时的因素与角色向量: 但是,在操纵数据帧时,角色向量和因子的处理方式会有很大不同.有关R&因子烦恼的一些信息可以在Quantum Forest博客上找到,R pitfall#3:friggin'因素.

stringsAsFactors = FALSE当使用read.table或从.csv或.txt读取数据时,它很有用read.csv.如另一个回复中所述,您必须确保角色向量中的所有内容都是一致的,否则每个拼写错误都会被指定为不同的因素.您可以使用函数gsub()来修复拼写错误.

这是一个工作示例,显示lm()如何使用字符向量和因子为您提供相同的结果.

一个随机的自变量:

continuous_x <- rnorm(10,10,3)

Run Code Online (Sandbox Code Playgroud)

随机分类变量作为字符向量:

character_x  <- (rep(c("dog","cat"),5))

Run Code Online (Sandbox Code Playgroud)

将字符向量转换为因子变量.factor_x < - as.factor(character_x)

给两个类别随机值:

character_x_value <- ifelse(character_x == "dog", 5*rnorm(1,0,1), rnorm(1,0,2))

Run Code Online (Sandbox Code Playgroud)

在indepdent变量和因变量之间创建一个随机关系

continuous_y <- continuous_x*10*rnorm(1,0) + character_x_value

Run Code Online (Sandbox Code Playgroud)

将线性模型的输出与因子变量和字符向量进行比较.请注意字符向量给出的警告.

summary(lm(continuous_y ~ continuous_x + factor_x))
summary(lm(continuous_y ~ continuous_x + character_x))

Run Code Online (Sandbox Code Playgroud)

Answer 2

Sea*_*ean 11

这完全取决于您对数据提出的问题!

type.c <- c("debit", "debit", "credit")
type.f <- factor(type.c)

Run Code Online (Sandbox Code Playgroud)

这里type.c只是一个字符串列表,而type.f是一个因子列表(这是正确的吗？还是一个数组？)

storage.mode(type.c)
# [1] "character"
storage.mode(type.f)
# [1] "integer"

Run Code Online (Sandbox Code Playgroud)

当创建一个因子变量时,它会查看已经给出的所有值并创建"级别"...请查看:

 levels(type.f)
 # [1] "credit" "debit"

Run Code Online (Sandbox Code Playgroud)

然后,而不是存储字符串"借记""信用""拼写错误的debbit"等...它只是存储整数和级别...看看:

str(type.f)
# Factor w/ 2 levels "credit","debit": 2 2 1

Run Code Online (Sandbox Code Playgroud)

即在type.c中它表示c("借记","借记",",信用")和等级(type.f)表示"信用""借记",你看到str(type.f)开始列出第一个它们存储的价值很少,即2 2 1 ......

如果你错误地键入"debbit"并将其添加到列表中,然后再执行一个级别(type.f),你会将它看作一个新级别...否则你可以做table(type.c).

当列表中只有三个元素时,它对存储卷没有太大影响,但随着列表变长,"信用"(6个字符)和"借记"(5个字符)将开始占用更多存储比保存整数所需的4个字节(加上几个字节).一个小实验表明,对于一组随机选择的type.c,object.size(type.c)> object.size(type.f)的阈值大约是96个元素.

dc <- c("debit", "credit")
N <- 300

# lets store the calculations as a matrix
# col1 = n
# col2 = sizeof(character)
# col3 = sizeof(factors)
res <- matrix(ncol=3, nrow=N)

for (i in c(1:N)) {
  type.c <- sample(dc, i, replace=T)
  type.f <- factor(type.c)
  res[i, 1] <- i
  res[i, 2] <- object.size(type.c)
  res[i, 3] <- object.size(type.f)
  cat('N=', i, '  object.size(type.c)=',object.size(type.c), '  object.size(type.f)=',object.size(type.f), '\n')
}
plot(res[,1], res[,2], col='blue', type='l', xlab='Number of items in type.x', ylab='bytes of storage')
lines(res[,1], res[,3], col='red')
mtext('blue for character; red for factor')

cat('Threshold at:', min(which(res[,2]>res[,3])), '\n')

Run Code Online (Sandbox Code Playgroud)

对于缺乏R'的道歉,我认为这有助于清晰.

Answer 3

Thi*_*rry 6

type 将从字符转换为因子。主要区别在于因子具有预定义的水平。因此，它们的值只能是这些级别之一或 NA。而字符可以是任何东西。

归档时间：	14 年，1 月前
查看次数：	20956 次
最近记录：	11 年，12 月前