小编A. *_*man的帖子

R - 按变量分组,然后分配唯一ID

我有兴趣去除具有时间固定和时变值的敏感数据集.我想(a)按社会安全号码对所有案件进行分组,(b)为这些案件分配一个唯一的ID,然后(c)删除社会安全号码.

这是一个示例数据集:

personal_id    gender  temperature
111-11-1111      M        99.6
999-999-999      F        98.2
111-11-1111      M        97.8
999-999-999      F        98.3
888-88-8888      F        99.0
111-11-1111      M        98.9
Run Code Online (Sandbox Code Playgroud)

任何解决方案都将非常感谢.

r dplyr

16
推荐指数
2
解决办法
2万
查看次数

想要使用 R 将日期和时间合并到列中

我有以下数据框

 Date             Time
10/03/2014       12.00.00
11/03/2014       13.00.00
12/03/2014       14.00.00
Run Code Online (Sandbox Code Playgroud)

我想创建一列,如下所示

DT
10/03/2014 12.00.00
11/03/2014 13.00.00
12/03/2014 14.00.00
Run Code Online (Sandbox Code Playgroud)

当我跑步时

data$DT <- as.POSIXct(paste(x$Date, x$Time), format="%d-%m-%Y %H:%M:%S")
Run Code Online (Sandbox Code Playgroud)

我得到一个包含所有 NA 值的 DT 列。

r date time-series dataframe arima

8
推荐指数
1
解决办法
7423
查看次数

读取文件 - 警告消息

我有一个文件,有22268行BY 2521列.当我尝试使用以下代码行读入文件时:

file <- read.table(textfile, skip=2, header=TRUE, sep="\t", fill=TRUE, blank.lines.skip=FALSE)
Run Code Online (Sandbox Code Playgroud)

但我只读入了13024行BY 2521列,并出现以下错误:

x <-count.fields(textfile, sep="\t", skip=2)
incorrect <- which(x != 2521)
Run Code Online (Sandbox Code Playgroud)

我还使用此命令查看哪些行的列数不正确:

file <- read.table(textfile, skip=2, header=TRUE, sep="\t", fill=TRUE, blank.lines.skip=FALSE)
Run Code Online (Sandbox Code Playgroud)

并找回了大约20行不正确的列表.

有没有办法用NA值填充这些行?

我认为这是"fill"参数在read.table函数中的作用,但它并没有出现.

要么

有没有办法忽略"不正确"变量中标识的这些行?

warnings r read.table

7
推荐指数
1
解决办法
1万
查看次数

系统找不到RStudio中指定的文件

几乎每次我在当前正在处理的 r 脚本中键入某些内容时,我都会收到此错误消息。

错误消息照片

错误消息不断弹出,直到我多次按 Control + S 才能保存 R 脚本。然后,大约 10-15 秒后,在我输入其他内容后,错误消息再次弹出。

有人有解决办法吗?

r save rstudio

7
推荐指数
1
解决办法
2万
查看次数

用R中的另一个列表匹配和替换一个列表中的字符串

我有两个字符串列表,并且想用文本搜索一列,以用另一个字符串中的项目替换一个字符串中的项目。第二个字符串与第一个字符串相同,但是包含用于HTML格式的标签。

我编写了一个小函数,尝试grep将第一个列表中的每个项目替换为另一个,但效果不佳。我也试图str_replace无济于事。

top_attribute_names<- c("Item Number \\(DPCI\\)", "UPC", "TCIN", "Product Form", "Health Facts", 
"Beauty Purpose", "Package Quantity", "Features", "Suggested Age", 
"Scent")

top_attributes_html<-ifelse(nchar(top_attribute_names)<30,paste("<b>",top_attribute_names,"</b>",sep=""),top_attribute_names) # List adding bold HTML tags for all strings with under 30 char

clean_free_description<-
c("Give your feathered friends a cozy new home with the Ceramic and Wood Birdhouse from Threshold. This simple birdhouse features a natural color scheme that helps it blend in with the tree you hang it from. The ceramic top is easy …
Run Code Online (Sandbox Code Playgroud)

r

5
推荐指数
1
解决办法
258
查看次数

内存:在图中高地址在顶部还是底部?

我正在学习C语言和记忆。为什么在某些图中高地址位于图的顶部,而在其他图中高地址位于图的底部?

高内存地址位于底部 高内存地址位于底部

高内存地址位于顶部 高内存地址位于顶部

c memory memory-address

5
推荐指数
1
解决办法
1985
查看次数

我如何在R中打印数据框将所有十进制值

我有一个要检查其值的数据框,但是当我打印该数据框时,仅打印2或3个小数。我直接检查了数据框,并确认比打印的小数位数更多。

到目前为止,我已经尝试过了print(df, digits=10)options(digits=10)但是这些似乎并没有改变打印输出。

一些截图:

打印输出的小数位数太少

打印输出的小数位数太少。

带有所有十进制值的实际数据

带有所有十进制值的实际数据。

format r

5
推荐指数
1
解决办法
302
查看次数

为什么我的错误栏的末端没有显示?

我试图用 ggplot2 绘制一系列值和误差线,但它们没有显示。

我尝试改变比例和误差条宽度,但这没有用

这是我的代码

plot5 <- ggplot(alpha_cDNA, aes(x = cDNA, y = ymid, colour = mark)) + geom_point() + 
         geom_errorbar(aes(ymin = ymin, ymax = ymax), width = 0.2) + theme(axis.text.x = element_text(size = 12)) + 
         theme(axis.text.y = element_text(size =12)) + scale_color_manual(values = c("chartreuse4", "aquamarine4", "steelblue4", "orchid4", "burlywood4", "gold4", "darkolivegreen4"))
Run Code Online (Sandbox Code Playgroud)

问题是误差条结束(应该是宽度 0.2)只是不显示。我以前从未遇到过这个问题

在此处输入图片说明

r ggplot2

4
推荐指数
1
解决办法
225
查看次数

将mutate_at用于满足两个条件的变量dplyr R

我正在尝试对数据框中的某些项目进行评分(重新编码)。所有反向得分的项目都以R结尾,并且每个音阶都有一个唯一的开始(“ hc”,“ out”和“ hm”)。我通常只选择所有以“ r”结尾的变量,但是问题是有些标度为5点标度(“ hc”和“ out”),而其他标度为7点标度(“ hm” ”)。

这是更大得多的数据集的示例:

library(tidyverse)

data <- tibble(name = c("Mike", "Ray", "Hassan"),
               hc_1 = c(1, 2, 3),
               hc_2r = c(5, 5, 4),
               out_1r = c(5, 4, 2),
               out_2 = c(2, 4, 5),
               out_3r = c(2, 2, 1),
               hm_1 = c(6, 7, 7),
               hm_2r = c(7, 1, 7))
Run Code Online (Sandbox Code Playgroud)

假设我想一次做一个标度,所以我从hm开始,它是七点标度。

我想用&语句尝试类似的操作,但出现错误:

library(tidyverse)
library(car)
data %>%
  mutate_at(vars(ends_with("r") & starts_with("hm")), ~(recode(., "1=7; 2=6; 3=5; 4=4; 5=3; 6=2; 7=1")))

Run Code Online (Sandbox Code Playgroud)

错误:ends_with("r") & starts_with("hc")必须求值为列的位置或名称,而不是逻辑向量

有什么干净的方法可以让它一次对这几个变量执行反向计分?再一次,数据集太大,实际上一次只能选择单个变量。

谢谢!

select r dplyr recode mutate

4
推荐指数
1
解决办法
46
查看次数

ggplot2分组箱线图不会将不同时间点的组分开

我有一个简单的数据集,包含两组和每组在 4 个不同时间点的值。我想随着时间的推移将此数据集显示为分组箱线图,但 ggplot2 不会分隔时间点。

这是我的数据:

 matrix
    Replicate Line Day Treatment  X A WT     Marker Proportion
            1    C  10       low NA      HuCHuD_Pos       8.62
            2    C  10       low NA      HuCHuD_Pos         NA
            1    C  18       low NA      HuCHuD_Pos      30.50                                                    
            3    C  18       low NA      HuCHuD_Pos         NA
            2    C  18       low NA      HuCHuD_Pos         NA
            1    C  50       low NA      HuCHuD_Pos      26.10
            2    C  50       low NA      HuCHuD_Pos      31.90
            1    C  80       low NA      HuCHuD_Pos      12.70
            2    C  80       low NA      HuCHuD_Pos      26.20
            1 …
Run Code Online (Sandbox Code Playgroud)

r ggplot2 boxplot

4
推荐指数
1
解决办法
5285
查看次数