标签: missing-data

转换NA在R中不起作用

我有一个数据框,df和一个因子类向量,"EMAIL_STATUS".如果我做:

table(df$EMAIL_STATUS, useNA="always")
Run Code Online (Sandbox Code Playgroud)

我得到38716 <NA>,638 "YES",110 "9999".

我想将38716转换为"UNKNOWN".我尝试以下代码:

df$EMAIL_STATUS[is.na(df$EMAIL_STATUS)] <- "UNKNOWN"
Run Code Online (Sandbox Code Playgroud)

我没有得到任何错误,但它没有将NAs转换为"UNKNOWN",事实上它什么也没做.

r missing-data na

0
推荐指数
1
解决办法
258
查看次数

如何计算R中表的每列中的元素

我有一个看起来像这样的数据集(实际上它有> 50列)

data <- read.csv("sample.csv")

subject gender  age type    satisfation     agree 
1   f   22  a   yes yes
2   f   23  b   no  yes 
3   f   21  b       no
4   m   24  c   yes yes 
5   f   22  b   no  yes
6   m       a   yes yes 
7       25  c   yes no
8   m   21  b   no  yes 
9   f   23  c   yes yes
Run Code Online (Sandbox Code Playgroud)

我想计算每列中的元素(不计算NA)并将结果导出为下面的布局

subject gender  age type    satisfation     agree 
9   8   8   9   8   9
Run Code Online (Sandbox Code Playgroud)

我写了一个脚本来计算

counting <- function(x) { …
Run Code Online (Sandbox Code Playgroud)

r count missing-data

0
推荐指数
2
解决办法
1882
查看次数

r中带有NA和空白的“ OR”条件

我最近看到了一个我不明白的问题。这里您有:

 x <- c(1,2,3,4,45,654,3,NA," ",8,5,64,54)
Run Code Online (Sandbox Code Playgroud)

而且||条件r不符合我的利益:识别NA和空白:

if(is.na(x) || x==" ") {...}
Run Code Online (Sandbox Code Playgroud)

我期望if函数返回,TRUE但是它会返回FALSE。有人可以在这里帮助我了解此问题吗?谢谢!

编辑:

抱歉,我打算在if语句中使用参数,因此长度应为1。|不适用于此处。

r nonblank missing-data conditional-statements na

0
推荐指数
1
解决办法
1099
查看次数

R - 用 NA 替换特定值内容

我有一个相当大的数据框,其中有多个“-”代表丢失的数据。数据框由多个 Excel 文件组成,无法使用“na.strings =”或替代函数,因此我必须使用“-”表示导入它们。

如何用 NA / 缺失值替换数据框中的所有“-”?数据框由 200 列字符、因子和整数组成。

到目前为止,我已经尝试过:

sum(df %in c("-"))
returns: [1] 0

df[df=="-"] <-NA #does not do anything

library(plyr)
df <- revalue(df, c("-",NA))
returns: Error in revalue(tmp, c("-", NA)) : 
  x is not a factor or a character vector.

library(anchors)
df <- replace.value(df,colnames(df),"-",as.character(NA))
Error in charToDate(x) : 
  character string is not in a standard unambiguous format
Run Code Online (Sandbox Code Playgroud)

数据框由 200 列字符、因子和整数组成,所以我可以理解为什么最后两个不能正常工作。任何帮助,将不胜感激。

r missing-data plyr

0
推荐指数
2
解决办法
1万
查看次数

在 KNIME 中将值更改为缺失值

我有一个数据集,其中每个缺失值都有 N/A,如何将其更改为列本身内部的实际缺失值。
我一直在尝试使用规则引擎节点,但它不起作用.. 有
什么建议吗?

nan missing-data knime imputation

0
推荐指数
1
解决办法
2766
查看次数

如何在缺失值的插补中对missRanger使用并行计算?

我正在输入缺失值,missRanger因为我有 1000 个变量,所以花费的时间太长。我尝试使用并行计算,但它并没有使过程更快。这是代码

library(doParallel)
cores=detectCores()
cl <- makeCluster(cores[1]-1) 
registerDoParallel(cl)
library(missRanger)
train[1:lengthvar] <- missRanger(train[1:lengthvar], pmm.k = 3, num.trees = 100)
stopCluster(cl)
Run Code Online (Sandbox Code Playgroud)

我不确定要向此代码添加什么才能使其正常工作。

parallel-processing r missing-data imputation

0
推荐指数
1
解决办法
505
查看次数

Python中通过插值填充缺失数据

我有一个 pandas 数据框,如下所示:

           Date and Time      Seconds  Pressure (mmHg)  Temperature (C)
0    2021-05-13 13:00:00        0.000          709.719           26.551
1    2021-05-13 14:00:00     3600.001          709.364           25.966
2    2021-05-13 15:00:00     7200.001          708.698           25.331
3    2021-05-13 16:00:00    10800.001          707.689           25.184
4    2021-05-13 17:00:00    14400.001          707.206           25.184
Run Code Online (Sandbox Code Playgroud)

压力和温度数据原本应以 15 分钟为间隔,但传感器设置错误,并且每小时收集一次数据。假设线性插值,如何将数据时间戳扩展到 15 分钟间隔并通过线性插值填充小时之间的缺失数据?我尝试了此处建议的解决方案,但我的文件很大而且数量很多。这个解决方案不是很快。

python interpolation missing-data pandas

0
推荐指数
1
解决办法
525
查看次数

创建一个函数来识别缺失值

我正在尝试构建一个函数作为 R 中更大函数的一部分。有些部分工作正常,但其他部分则不然。这是给我带来问题的代码片段。

这部分函数旨在识别数据框中的变量是否丢失,然后生成一个新变量来记录该特定情况是否丢失或存在。我希望新变量具有后缀 .zero(q1 变为 q1_zero,q2 变为 q2_zero 等)。我可以毫无问题地生成后缀。创建新变量会导致一些问题。任何见解将不胜感激。

function1 <- function (x, data) {
  # new variable name
  temp <- paste (x, .zero, sep="", collapse = NULL)
  temp
  
  # is variable missing
  # I don't know if I should use this method or ifelse()
  data$temp [is.na (data$x)]<- 0
  data$temp [!is.na (data$x)]<- 1
 return (data$temp)
  }
Run Code Online (Sandbox Code Playgroud)

variables r function missing-data

0
推荐指数
1
解决办法
293
查看次数

如何找到向量中缺失值的位置

R语言必须具有什么功能才能找到数据框中的缺失值,或者至少如何知道数据框具有缺失值?

r missing-data na

-2
推荐指数
1
解决办法
1774
查看次数