我有一个关于超几何测试的问题.
我有这样的数据:
pop size:5260
sample size:131
pop中被归类为成功
的项目数:1998 样本中被分类为成功的项目数:62
要计算超几何测试,这是正确的吗?
phyper(62, 1998, 5260, 131)
Run Code Online (Sandbox Code Playgroud) 我有一个非常简单的问题.我有一个包含多个列的文件,我想使用awk过滤它们.
所以感兴趣的列是第6列,我想找到包含以下内容的每个字符串:
所以每个例子:20S50M都可以
我试过了 :
awk '{ if($6 == '/[1-100][S|M][1-100][S|M]/') print} file.txt
Run Code Online (Sandbox Code Playgroud)
但它不起作用......我做错了什么?
是否可以在R中的图中添加多个x轴?并在每个比例旁边添加注释?
编辑>这是Nick Sabbe想法的结果.对于注释(每个轴左侧的一个小文本),是否可能?
我有一台带有linux mint 18.3的VMware机器(主机是windows 10).主机在代理后面.客户机(linux mint)网络配置为"Bridged"?
我尝试在来宾操作系统上编写一个简单的Dockerfile并构建它但是有apt-get命令的问题:
FROM ubuntu:xenial
RUN apt-get update && apt-get install -y \
bzip2 \
g++ \
make \
ncurses-dev \
wget \
zlib1g-dev
Run Code Online (Sandbox Code Playgroud)
它给了我:
错误:1 http://security.ubuntu.com/ubuntu xenial-security InRelease临时故障解决'security.ubuntu.com'
我尝试在Dockerfile中添加:
ENV http_proxy 'http://proxy_adress:3128'
ENV https_proxy 'http://proxy_adress:3128'
Run Code Online (Sandbox Code Playgroud)
并得到此错误:
错误:1 http://security.ubuntu.com/ubuntu xenial-security InRelease临时故障解决'proxy_adress'
我是否必须更改VMware配置中的某些内容?或者在Dockerfile中?
谢谢
我有一个数据框,其中包含从不同团队执行的任务的信息.
我想使用R. Blue box = team绘制如下所示的类似情节.任务完成=绿框.做任务=灰盒子.我正在考虑使用ggplot2 geom_tile,但我想知道是否还有其他现有的解决方案?
示例:
task team status
1 A completed
2 A completed
3 B completed
4 A to do
5 C to do
6 B to do
7 C to do
8 A to do
Run Code Online (Sandbox Code Playgroud)
dput
for reproducibilty:
structure(list(task = 1:8, team = c("A", "A", "B", "A", "C",
"B", "C", "A"), status = c("completed", "completed", "completed",
"to do", "to do", "to do", "to do", "to do")), .Names = c("task",
"team", "status"), class = "data.frame", row.names …
Run Code Online (Sandbox Code Playgroud) 我尝试使用 R gt 包在 gt 单元格中强制换行。在 gt 文档中,它被描述为可以使用cols_label()
# example
gt_tbl %>%
cols_label(
col = html("text1,<br>text2")
)
Run Code Online (Sandbox Code Playgroud)
但在细胞中我找不到办法做到这一点。我尝试通过添加 \n 或
没有成功。
library(gt)
# dummy data
dat <- tibble(
a=1:3,
b=c("a","b c","d e f")
)
# A tibble: 3 x 2
a b
<int> <chr>
1 1 a
2 2 b c
3 3 d e f
# with \n
dat %>%
mutate(b=str_replace_all(b," ","\n")) %>%
gt()
# with <br>
dat %>%
mutate(b=str_replace_all(b," ","<br>")) %>%
gt()
Run Code Online (Sandbox Code Playgroud)
始终生成相同的表:
预期成绩 :
有任何想法吗 ? …
我在 R 中有一个环境对象,我想将其转换为 data.frame。我尝试了 as.data.frame 但它不接受环境对象..有人有想法吗?
e <- new.env(hash=TRUE,size=3)
assign(x="a",value=10,envir=e)
assign(x="b",value=100,envir=e)
assign(x="c",value=1000,envir=e)
Run Code Online (Sandbox Code Playgroud)
谢谢
自从新版本的ggplot2(0.9.3)以来,我有问题用错误栏绘制条形图.所以我有一个像这样的数据帧:
group N val sd se ci
1 206 3 37.2269533 7.9688645 4.6008261 19.7957568
2 207 3 2.0731505 2.2843009 1.3188417 5.6745180
3 208 3 2.2965978 1.4120606 0.8152536 3.5077531
4 209 3 3.1085132 1.1986664 0.6920504 2.9776525
5 210 3 3.3735251 1.9226134 1.1100214 4.7760365
6 211 3 4.0477951 2.9410503 1.6980162 7.3059739
7 212 3 1.2391158 1.2345554 0.7127709 3.0668055
8 213 2 1.3082374 1.1234220 0.7943793 10.0935460
Run Code Online (Sandbox Code Playgroud)
我想为每个组绘制val + - s:我在升级之前做了那个:
ggplot(dfc, aes(x=factor(group), y=factor(val)) + geom_bar(position=position_dodge()) + geom_errorbar(aes(ymin=val-se, ymax=val+se),width=.1,position=position_dodge(.9))
Run Code Online (Sandbox Code Playgroud)
它给了我:
将变量映射到y并使用stat ="bin".使用stat ="bin",它将尝试将y值设置为每个组中的个案数.这可能会导致意外行为,并且在将来的ggplot2版本中将不允许这样做.如果您希望y表示案例计数,请使用stat ="bin"并且不要将变量映射到y.如果您希望y表示数据中的值,请使用stat …
如何使用映射文件(+ 50K 行)替换一个大文件(+ 500K 行)中的多个字符串?映射文件的结构如下:
A1 B1
A2 B2
A3 B3
.. ..
Run Code Online (Sandbox Code Playgroud)
大文件的结构如下:
A1 A2
A1 A3
A1 A8
A2 A1
A2 A3
A3 A10
A3 A13
Run Code Online (Sandbox Code Playgroud)
并且大文件中的每个字符串都必须使用映射文件进行替换。
想要的结果:
B1 B2
B1 B3
B1 B8
B2 B1
B2 B3
B3 B10
B3 B13
Run Code Online (Sandbox Code Playgroud)
我尝试在映射文件的每一行上使用 awk,但这需要非常非常长的时间......这是 awk 命令。所以我编写了一个循环,为映射文件的每一行启动一个 awk 命令,我将结果保存在临时文件中,并将此结果在新的 awk 中与映射文件的下一行一起使用(我知道效率不是很高..)
cat inputBigFile.txt | awk '{ gsub( "A1","B1" );}1' > out.txt
Run Code Online (Sandbox Code Playgroud)
提前致谢
在R中,我如何产生一个组的所有排列,但在这个组中有一些重复的元素.
示例:
A = {1,1,2,2,3}
Run Code Online (Sandbox Code Playgroud)
方案:
1,1,2,2,3
1,1,2,3,2
1,1,3,2,2
1,2,1,2,3
1,2,2,1,3
1,2,2,3,1
.
.
Run Code Online (Sandbox Code Playgroud) 我有一个小标题:
# A tibble: 2 × 2
read_seq unique_id
<chr> <dbl>
1 AATTGGCC 1
2 GGGTTT 2
Run Code Online (Sandbox Code Playgroud)
我想创建一个包含与read_seq相同大小的字符串的新变量。我做到了,但是有一个错误:
> r %>% mutate(y=paste(rep("H",width(read_seq)),sep=""))
Error in mutate_impl(.data, dots) : argument 'times' incorrect
Run Code Online (Sandbox Code Playgroud)
当我只尝试捕获read_seq宽度时,它可以工作:
> r %>% mutate(y=width(read_seq))
# A tibble: 2 × 3
read_seq unique_id y
<chr> <dbl> <int>
1 AATTGGCC 1 8
2 GGGTTT 2 6
Run Code Online (Sandbox Code Playgroud)
这是可重现性示例的dput():
r <- structure(list(read_seq = c("AATTGGCC", "GGGTTT"), unique_id = c(1,
2)), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA,
-2L), .Names = c("read_seq", "unique_id"))
Run Code Online (Sandbox Code Playgroud)