使用addNA()后找到NA值

Question

使用addNA()后找到NA值

我有一个带有一堆分类变量的数据框.其中一些包含NA,我使用该addNA函数将它们转换为显式因子级别.当我尝试将它们视为NA时,我的问题就出现了,它们似乎没有注册.

这是我的示例数据集,并试图"找到"NA:

df1 <- data.frame(id = 1:200, y =rbinom(200, 1, .5),
                  var1 = factor(rep(c('abc','def','ghi','jkl'),50)))
df1$var2 <- factor(rep(c('ab c','ghi','jkl','def'),50))
df1$var3 <- factor(rep(c('abc','ghi','nop','xyz'),50))

df1[df1$var1 == 'abc','var1'] <- NA

df1$var1 <- addNA(df1$var1)

df1$isNaCol <- ifelse(df1$var1 == NA, 1, 0);summary(df1$isNaCol)
df1$isNaCol <- ifelse(is.na(df1$var1), 1, 0);summary(df1$isNaCol)
df1$isNaCol <- ifelse(df1$var1 == 'NA', 1, 0);summary(df1$isNaCol)
df1$isNaCol <- ifelse(df1$var1 == '<NA>', 1, 0);summary(df1$isNaCol)

Run Code Online (Sandbox Code Playgroud)

当我输入时,??addNA我没有得到任何匹配.这是灰色市场功能还是什么？任何建议,将不胜感激.

Answer 1

Mat*_*rde 5

NA使用通常的比较运算符测试相等性总是会产生NA---you Want is.na。此外，调用is.na测试factor每个级别的索引（不是与该索引关联的值），因此您需要首先将转换factor为character向量。

df1$isNaCol <- ifelse(is.na(as.character(df1$var1)), 1, 0);summary(df1$isNaCol)

Run Code Online (Sandbox Code Playgroud)

Answer 2

Rei*_*son 5

请注意，这是在调用之前使用 OP 的数据完成的addNA()。

了解如何addNA()处理这些数据是有启发性的。

> head(df1$var1)
[1] <NA> def  ghi  jkl  <NA> def 
Levels: abc def ghi jkl
> levels(df1$var1)
[1] "abc" "def" "ghi" "jkl"
> head(addNA(df1$var1))
[1] <NA> def  ghi  jkl  <NA> def 
Levels: abc def ghi jkl <NA>
> levels(addNA(df1$var1))
[1] "abc" "def" "ghi" "jkl" NA

Run Code Online (Sandbox Code Playgroud)

addNA正在改变因子的水平，使得缺失 ( NA) 是默认情况下 R 忽略它的水平，因为NA值所采用的水平当然是缺失的。它还剥离了NA信息——从某种意义上说，它不再是未知的，而是“缺失”类别的一部分。

看看对addNA我们有什么帮助?addNA。

如果我们看一下的定义，addNA我们会发现它所做的只是改变级别

of the factor, not changing the data any:

> addNA
function (x, ifany = FALSE) 
{
    if (!is.factor(x)) 
        x <- factor(x)
    if (ifany & !any(is.na(x))) 
        return(x)
    ll <- levels(x)
    if (!any(is.na(ll))) 
        ll <- c(ll, NA)
    factor(x, levels = ll, exclude = NULL)
}

Run Code Online (Sandbox Code Playgroud)

请注意，它不会以其他方式更改数据 - 数据NA仍然存在于因子中。我们可以复制 via 的大部分行为addNA：

with(df1, factor(var1, levels = c(levels(var1), NA), exclude = NULL))

> head(with(df1, factor(var1, levels = c(levels(var1), NA), exclude = NULL)))
[1] <NA> def  ghi  jkl  <NA> def 
Levels: abc def ghi jkl <NA>

Run Code Online (Sandbox Code Playgroud)

但是，因为NA现在是一个级别，所以这些条目不会is.na()通过“这解释了您不工作的第二个比较”（在您使用的地方）指示为丢失is.na()。

您从中得到的唯一好处addNA是，如果它已经作为一个级别存在，则它不会添加NA为一个级别。另外，如果数据中没有s ifany，您可以通过停止将其添加为级别。NANA

你出错的地方是尝试NA使用通常的比较方法（除了你的第二个例子）来比较 an 和某些东西。如果我们不知道价值和NA观察需要什么，我们如何将其与某些东西进行比较？好吧，除了的内部表示之外，我们不能NA。这是该函数所做的事情is.na()：

> with(df1, head(is.na(var1), 10))
 [1]  TRUE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE

Run Code Online (Sandbox Code Playgroud)

因此我会这样做（addNA 根本不使用）

df1 <- transform(df1, isNaCol = is.na(var1))

> head(df1)
  id y var1 var2 var3 isNaCol
1  1 1 <NA> ab c  abc    TRUE
2  2 0  def  ghi  ghi   FALSE
3  3 0  ghi  jkl  nop   FALSE
4  4 0  jkl  def  xyz   FALSE
5  5 0 <NA> ab c  abc    TRUE
6  6 1  def  ghi  ghi   FALSE

Run Code Online (Sandbox Code Playgroud)

如果您希望将其作为1, 0, 变量，只需添加as.numeric()如下

df1 <- transform(df1, isNaCol = as.numeric(is.na(var1)))

Run Code Online (Sandbox Code Playgroud)

我认为你真正出错的地方是想要NA给这个因素附加一个级别。我认为addNA()这是一个方便的函数，可用于诸如之类的事情table()，甚至有参数表明不需要事先使用addNA()，例如：

> with(df1, table(var1, useNA = "ifany"))
var1
 abc  def  ghi  jkl <NA> 
   0   50   50   50   50

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，8 月前
查看次数：	1578 次
最近记录：	12 年，8 月前