R - 按变量分组,然后分配唯一ID

我有兴趣去除具有时间固定和时变值的敏感数据集.我想(a)按社会安全号码对所有案件进行分组,(b)为这些案件分配一个唯一的ID,然后(c)删除社会安全号码.

这是一个示例数据集:

personal_id    gender  temperature
111-11-1111      M        99.6
999-999-999      F        98.2
111-11-1111      M        97.8
999-999-999      F        98.3
888-88-8888      F        99.0
111-11-1111      M        98.9

Run Code Online (Sandbox Code Playgroud)

任何解决方案都将非常感谢.

r dplyr

B V*_*tor

2018 08-07

16
推荐指数

2
解决办法

2万
查看次数

想要使用 R 将日期和时间合并到列中

我有以下数据框

 Date             Time
10/03/2014       12.00.00
11/03/2014       13.00.00
12/03/2014       14.00.00

Run Code Online (Sandbox Code Playgroud)

我想创建一列，如下所示

DT
10/03/2014 12.00.00
11/03/2014 13.00.00
12/03/2014 14.00.00

Run Code Online (Sandbox Code Playgroud)

当我跑步时

data$DT <- as.POSIXct(paste(x$Date, x$Time), format="%d-%m-%Y %H:%M:%S")

Run Code Online (Sandbox Code Playgroud)

我得到一个包含所有 NA 值的 DT 列。

r date time-series dataframe arima

Nik*_*ire

2018 07-17

8
推荐指数

1
解决办法

7423
查看次数

读取文件 - 警告消息

我有一个文件,有22268行BY 2521列.当我尝试使用以下代码行读入文件时:

file <- read.table(textfile, skip=2, header=TRUE, sep="\t", fill=TRUE, blank.lines.skip=FALSE)

Run Code Online (Sandbox Code Playgroud)

但我只读入了13024行BY 2521列,并出现以下错误:

x <-count.fields(textfile, sep="\t", skip=2)
incorrect <- which(x != 2521)

Run Code Online (Sandbox Code Playgroud)

我还使用此命令查看哪些行的列数不正确:

file <- read.table(textfile, skip=2, header=TRUE, sep="\t", fill=TRUE, blank.lines.skip=FALSE)

Run Code Online (Sandbox Code Playgroud)

并找回了大约20行不正确的列表.

有没有办法用NA值填充这些行？

我认为这是"fill"参数在read.table函数中的作用,但它并没有出现.

要么

有没有办法忽略"不正确"变量中标识的这些行？

warnings r read.table

She*_*ila

2019 08-21

7
推荐指数

1
解决办法

1万
查看次数

系统找不到RStudio中指定的文件

几乎每次我在当前正在处理的 r 脚本中键入某些内容时，我都会收到此错误消息。

错误消息照片

错误消息不断弹出，直到我多次按 Control + S 才能保存 R 脚本。然后，大约 10-15 秒后，在我输入其他内容后，错误消息再次弹出。

有人有解决办法吗？

r save rstudio

pyt*_*det

2020 01-23

7
推荐指数

1
解决办法

2万
查看次数

用R中的另一个列表匹配和替换一个列表中的字符串

我有两个字符串列表，并且想用文本搜索一列，以用另一个字符串中的项目替换一个字符串中的项目。第二个字符串与第一个字符串相同，但是包含用于HTML格式的标签。

我编写了一个小函数，尝试grep将第一个列表中的每个项目替换为另一个，但效果不佳。我也试图str_replace无济于事。

top_attribute_names<- c("Item Number \\(DPCI\\)", "UPC", "TCIN", "Product Form", "Health Facts", 
"Beauty Purpose", "Package Quantity", "Features", "Suggested Age", 
"Scent")

top_attributes_html<-ifelse(nchar(top_attribute_names)<30,paste("<b>",top_attribute_names,"</b>",sep=""),top_attribute_names) # List adding bold HTML tags for all strings with under 30 char

clean_free_description<-
c("Give your feathered friends a cozy new home with the Ceramic and Wood Birdhouse from Threshold. This simple birdhouse features a natural color scheme that helps it blend in with the tree you hang it from. The ceramic top is easy …

Run Code Online (Sandbox Code Playgroud)

roo*_*ody

2018 08-05

5
推荐指数

1
解决办法

258
查看次数

内存：在图中高地址在顶部还是底部？

我正在学习C语言和记忆。为什么在某些图中高地址位于图的顶部，而在其他图中高地址位于图的底部？

高内存地址位于底部

高内存地址位于顶部

c memory memory-address

Ste*_*jac

2018 08-05

5
推荐指数

1
解决办法

1985
查看次数

我如何在R中打印数据框将所有十进制值

我有一个要检查其值的数据框，但是当我打印该数据框时，仅打印2或3个小数。我直接检查了数据框，并确认比打印的小数位数更多。

到目前为止，我已经尝试过了print(df, digits=10)，options(digits=10)但是这些似乎并没有改变打印输出。

一些截图：

打印输出的小数位数太少

打印输出的小数位数太少。

带有所有十进制值的实际数据

带有所有十进制值的实际数据。

format r

rco*_*guy

2019 02-26

5
推荐指数

1
解决办法

302
查看次数

为什么我的错误栏的末端没有显示？

我试图用 ggplot2 绘制一系列值和误差线，但它们没有显示。

我尝试改变比例和误差条宽度，但这没有用

这是我的代码

plot5 <- ggplot(alpha_cDNA, aes(x = cDNA, y = ymid, colour = mark)) + geom_point() + 
         geom_errorbar(aes(ymin = ymin, ymax = ymax), width = 0.2) + theme(axis.text.x = element_text(size = 12)) + 
         theme(axis.text.y = element_text(size =12)) + scale_color_manual(values = c("chartreuse4", "aquamarine4", "steelblue4", "orchid4", "burlywood4", "gold4", "darkolivegreen4"))

Run Code Online (Sandbox Code Playgroud)

问题是误差条结束（应该是宽度 0.2）只是不显示。我以前从未遇到过这个问题

在此处输入图片说明

r ggplot2

Cor*_*lpe

2019 07-31

4
推荐指数

1
解决办法

225
查看次数

将mutate_at用于满足两个条件的变量dplyr R

我正在尝试对数据框中的某些项目进行评分（重新编码）。所有反向得分的项目都以R结尾，并且每个音阶都有一个唯一的开始（“ hc”，“ out”和“ hm”）。我通常只选择所有以“ r”结尾的变量，但是问题是有些标度为5点标度（“ hc”和“ out”），而其他标度为7点标度（“ hm” ”）。

这是更大得多的数据集的示例：

library(tidyverse)

data <- tibble(name = c("Mike", "Ray", "Hassan"),
               hc_1 = c(1, 2, 3),
               hc_2r = c(5, 5, 4),
               out_1r = c(5, 4, 2),
               out_2 = c(2, 4, 5),
               out_3r = c(2, 2, 1),
               hm_1 = c(6, 7, 7),
               hm_2r = c(7, 1, 7))

Run Code Online (Sandbox Code Playgroud)

假设我想一次做一个标度，所以我从hm开始，它是七点标度。

我想用＆语句尝试类似的操作，但出现错误：

library(tidyverse)
library(car)
data %>%
  mutate_at(vars(ends_with("r") & starts_with("hm")), ~(recode(., "1=7; 2=6; 3=5; 4=4; 5=3; 6=2; 7=1")))

Run Code Online (Sandbox Code Playgroud)

错误：ends_with("r") & starts_with("hc")必须求值为列的位置或名称，而不是逻辑向量

有什么干净的方法可以让它一次对这几个变量执行反向计分？再一次，数据集太大，实际上一次只能选择单个变量。

谢谢！

select r dplyr recode mutate

J.S*_*ree

2019 08-31

4
推荐指数

1
解决办法

46
查看次数

ggplot2分组箱线图不会将不同时间点的组分开

我有一个简单的数据集，包含两组和每组在 4 个不同时间点的值。我想随着时间的推移将此数据集显示为分组箱线图，但 ggplot2 不会分隔时间点。

这是我的数据：

 matrix
    Replicate Line Day Treatment  X A WT     Marker Proportion
            1    C  10       low NA      HuCHuD_Pos       8.62
            2    C  10       low NA      HuCHuD_Pos         NA
            1    C  18       low NA      HuCHuD_Pos      30.50                                                    
            3    C  18       low NA      HuCHuD_Pos         NA
            2    C  18       low NA      HuCHuD_Pos         NA
            1    C  50       low NA      HuCHuD_Pos      26.10
            2    C  50       low NA      HuCHuD_Pos      31.90
            1    C  80       low NA      HuCHuD_Pos      12.70
            2    C  80       low NA      HuCHuD_Pos      26.20
            1 …

Run Code Online (Sandbox Code Playgroud)

r ggplot2 boxplot

Pau*_*hel

2020 03-08

4
推荐指数

1
解决办法

5285
查看次数