我刚刚开始使用该geom_map功能ggplot2.在阅读了我geom_map在这里找到的29篇帖子后,我仍然遇到了同样的问题.
我的数据框架非常大,包含超过2000行.它基本上是来自世界卫生组织编制的特定基因(TP53)的数据.
请从这里下载.
标题如下所示:
> head(ARCTP53_SOExample)
Mutation_ID MUT_ID hg18_Chr17_coordinates hg19_Chr17_coordinates ExonIntron Genomic_nt Codon_number
1 16 1789 7519192 7578467 5-exon 12451 155
2 13 1741 7519200 7578475 5-exon 12443 152
3 17 2143 7519131 7578406 5-exon 12512 175
4 14 2143 7519131 7578406 5-exon 12512 175
5 15 2168 7519128 7578403 5-exon 12515 176
6 12 3737 7517845 7577120 8-exon 13798 273
Description c_description g_description g_description_hg18 WT_nucleotide Mutant_nucleotide
1 A>G c.463A>G g.7578467T>C NC_000017.9:g.7519192T>C …Run Code Online (Sandbox Code Playgroud) 在尝试创建自己的问题data.frame并对其进行定量分析(例如a chisq.test)时,我无法找到解决问题的方法.
背景如下:我总结了收到的与两家医院有关的数据.两者都测量了相同的分类变量n次.在这种情况下,它是在特定观察期内发现与卫生保健相关的细菌的频率.
在表格中,汇总数据如下所示,其中%表示在该时间段内进行的所有测量的百分比.
n Hospital 1 (%) n Hospital 2 (%)
Healthcare associated bacteria 829 (59.4) 578 (57.6)
Community associated bacteria 473 (33.9) 372 (37.1)
Contaminants 94 (6.7) 53 (5.3)
Total 1396 (100.0) 1003 (100.0)
Run Code Online (Sandbox Code Playgroud)
现在看一下百分比,显然比例非常相似,你可能想知道为什么我要在统计上比较这两家医院.但我有其他数据,比例不同,因此这个问题的目的是:
如何比较医院1和医院2的测量类别.
由于数据以汇总方式和数组格式提供,我决定data.frame为每个单个变量/类别创建一个.
hosp1 <- rep(c("Yes", "No"), times=c(829,567))
hosp2 <- rep(c("Yes", "No"), times=c(578,425))
all <- cbind(hosp1, c(hosp2,rep(NA, length(hosp1)-length(hosp2))))
all <- data.frame(all)
names(all)[2]<-"hosp2"
summary(all)
Run Code Online (Sandbox Code Playgroud)
到目前为止这么好,因为总结看起来似乎能够现在运行一个chisq.test().但现在,事情变得奇怪了.
with(all, chisq.test(hosp1, hosp2, correct=F))
Pearson's Chi-squared test
data: hosp1 and hosp2
X-squared = …Run Code Online (Sandbox Code Playgroud) 这与此处的问题有关.但是,我不打算制作一个箱形图,而是在ggplot2中创建散点图,但添加参数geom_jitter()会添加黑点,这些黑点似乎与我的数据集无关.
以下是使用mpg数据包的示例:
这是一个简单的散点图,看起来有点"太干净"
gmpg<-ggplot(data=mpg, aes(x=hwy, y=cty))
gmpg+geom_point(aes(col=manufacturer))
Run Code Online (Sandbox Code Playgroud)
产生这个:

现在,如果我添加参数jitter,就会发生这种情况
gmpg+geom_point(aes(col=manufacturer))+geom_jitter()
Run Code Online (Sandbox Code Playgroud)

我试过减少alpha等,但黑点仍然存在.究竟是什么,如何删除它们?
这是我关于使用格子中的条形图绘制定义组的问答的后续。因此,按照这个小练习的解决方案,我意识到 R 会按照数据框中出现的方式绘制数据,并在下一行数据分配到条形图上的另一个空间时在每个条形之间留出空格。如果你看看情节你就会明白我的意思:
> data.frame(SOExample2)
Study.ID Diagnosis Level
1 1 Cancer 1040.58
2 2 Cancer 810.92
3 3 Cancer 2087.80
4 4 Cancer 3959.02
5 5 Cancer 3648.48
6 6 Cancer 1191.74
7 7 Cancer 1156.90
8 8 Cancer 2705.56
9 9 Cancer 827.26
10 10 Cancer 867.16
11 11 Cancer 575.10
12 12 Cancer 699.85
13 13 Cancer 1121.86
14 14 Cancer 1830.62
15 15 Cancer 4203.01
16 16 Cancer 874.59
17 17 Cancer 1037.20
18 18 Cancer 1398.56 …Run Code Online (Sandbox Code Playgroud)