小编Nic*_*ick的帖子

超几何测试(phyper)

我有一个关于超几何测试的问题.

我有这样的数据:

pop size:5260
sample size:131
pop中被归类为成功
的项目数:1998 样本中被分类为成功的项目数:62

要计算超几何测试,这是正确的吗？

phyper(62, 1998, 5260, 131)

Run Code Online (Sandbox Code Playgroud)

testing r

Nic*_*ick

2018 03-14

23
推荐指数

3
解决办法

4万
查看次数

使用awk和regexp过滤列

我有一个非常简单的问题.我有一个包含多个列的文件,我想使用awk过滤它们.

所以感兴趣的列是第6列,我想找到包含以下内容的每个字符串:

从1到100的数字开始
在那之后"S"或"M"
再次从1到100的数字
在那之后"S"或"M"

所以每个例子:20S50M都可以

我试过了 :

awk '{ if($6 == '/[1-100][S|M][1-100][S|M]/') print} file.txt

Run Code Online (Sandbox Code Playgroud)

但它不起作用......我做错了什么？

regex awk

Nic*_*ick

2013 09-23

16
推荐指数

1
解决办法

3万
查看次数

R:带注释的多个x轴

是否可以在R中的图中添加多个x轴？并在每个比例旁边添加注释？

编辑>这是Nick Sabbe想法的结果.对于注释(每个轴左侧的一个小文本),是否可能？

在此输入图像描述

plot r

Nic*_*ick

2015 02-27

8
推荐指数

2
解决办法

3万
查看次数

Linux VMware机器上的Docker:apt-get和proxy出错

我有一台带有linux mint 18.3的VMware机器(主机是windows 10).主机在代理后面.客户机(linux mint)网络配置为"Bridged"？

我尝试在来宾操作系统上编写一个简单的Dockerfile并构建它但是有apt-get命令的问题:

FROM ubuntu:xenial 

RUN apt-get update && apt-get install -y \
  bzip2 \
  g++ \
  make \
  ncurses-dev \
  wget \
  zlib1g-dev

Run Code Online (Sandbox Code Playgroud)

它给了我:

错误:1 http://security.ubuntu.com/ubuntu xenial-security InRelease临时故障解决'security.ubuntu.com'

我尝试在Dockerfile中添加:

ENV http_proxy 'http://proxy_adress:3128'
ENV https_proxy 'http://proxy_adress:3128'

Run Code Online (Sandbox Code Playgroud)

并得到此错误:

错误:1 http://security.ubuntu.com/ubuntu xenial-security InRelease临时故障解决'proxy_adress'

我是否必须更改VMware配置中的某些内容？或者在Dockerfile中？

谢谢

vmware proxy apt docker

Nic*_*ick

2018 02-19

6
推荐指数

1
解决办法

728
查看次数

R:绘制时间线流程图

我有一个数据框,其中包含从不同团队执行的任务的信息.

我想使用R. Blue box = team绘制如下所示的类似情节.任务完成=绿框.做任务=灰盒子.我正在考虑使用ggplot2 geom_tile,但我想知道是否还有其他现有的解决方案？

示例:

task    team    status
1   A   completed
2   A   completed
3   B   completed
4   A   to do
5   C   to do
6   B   to do
7   C   to do
8   A   to do

Run Code Online (Sandbox Code Playgroud)

dput for reproducibilty:

structure(list(task = 1:8, team = c("A", "A", "B", "A", "C", 
"B", "C", "A"), status = c("completed", "completed", "completed", 
"to do", "to do", "to do", "to do", "to do")), .Names = c("task", 
"team", "status"), class = "data.frame", row.names …

Run Code Online (Sandbox Code Playgroud)

timeline r flowchart ggplot2

Nic*_*ick

2019 01-09

6
推荐指数

1
解决办法

228
查看次数

gt 表 - 单元格中的换行符

我尝试使用 R gt 包在 gt 单元格中强制换行。在 gt 文档中，它被描述为可以使用cols_label()

 # example
 gt_tbl %>%
  cols_label(
    col = html("text1,<br>text2")
   )

Run Code Online (Sandbox Code Playgroud)

但在细胞中我找不到办法做到这一点。我尝试通过添加 \n 或
没有成功。

library(gt)

# dummy data
dat <- tibble(
  a=1:3,
  b=c("a","b c","d e f")
)

# A tibble: 3 x 2
      a b    
  <int> <chr>
1     1 a    
2     2 b c  
3     3 d e f

# with \n
dat %>% 
  mutate(b=str_replace_all(b," ","\n")) %>% 
  gt()

# with <br>
dat %>% 
  mutate(b=str_replace_all(b," ","<br>")) %>% 
  gt()

Run Code Online (Sandbox Code Playgroud)

始终生成相同的表：

预期成绩：

有任何想法吗？ …

newline r gt

Nic*_*ick

2020 08-11

6
推荐指数

1
解决办法

717
查看次数

R中的树结构

是否有一个在R中实现树结构的软件包？每个节点可以有多个子节点（因此它不是二叉树）。

tree r

Nic*_*ick

2012 12-07

5
推荐指数

1
解决办法

1424
查看次数

R ：环境到 data.frame

我在 R 中有一个环境对象，我想将其转换为 data.frame。我尝试了 as.data.frame 但它不接受环境对象..有人有想法吗？

e <- new.env(hash=TRUE,size=3)
assign(x="a",value=10,envir=e)
assign(x="b",value=100,envir=e)
assign(x="c",value=1000,envir=e)

Run Code Online (Sandbox Code Playgroud)

谢谢

environment r dataframe

Nic*_*ick

lucky-day

5
推荐指数

1
解决办法

7061
查看次数

R:ggplot2 barplot和错误栏

自从新版本的ggplot2(0.9.3)以来,我有问题用错误栏绘制条形图.所以我有一个像这样的数据帧:

    group N        val         sd         se         ci
1     206 3 37.2269533  7.9688645  4.6008261 19.7957568
2     207 3  2.0731505  2.2843009  1.3188417  5.6745180
3     208 3  2.2965978  1.4120606  0.8152536  3.5077531
4     209 3  3.1085132  1.1986664  0.6920504  2.9776525
5     210 3  3.3735251  1.9226134  1.1100214  4.7760365
6     211 3  4.0477951  2.9410503  1.6980162  7.3059739
7     212 3  1.2391158  1.2345554  0.7127709  3.0668055
8     213 2  1.3082374  1.1234220  0.7943793 10.0935460

Run Code Online (Sandbox Code Playgroud)

我想为每个组绘制val + - s:我在升级之前做了那个:

ggplot(dfc, aes(x=factor(group), y=factor(val)) +  geom_bar(position=position_dodge()) + geom_errorbar(aes(ymin=val-se, ymax=val+se),width=.1,position=position_dodge(.9))

Run Code Online (Sandbox Code Playgroud)

它给了我:

将变量映射到y并使用stat ="bin".使用stat ="bin",它将尝试将y值设置为每个组中的个案数.这可能会导致意外行为,并且在将来的ggplot2版本中将不允许这样做.如果您希望y表示案例计数,请使用stat ="bin"并且不要将变量映射到y.如果您希望y表示数据中的值,请使用stat …

r ggplot2

Nic*_*ick

lucky-day

3
推荐指数

1
解决办法

1万
查看次数

使用映射文件替换文件中的多个字符串

如何使用映射文件（+ 50K 行）替换一个大文件（+ 500K 行）中的多个字符串？映射文件的结构如下：

A1  B1
A2  B2
A3  B3
..  ..

Run Code Online (Sandbox Code Playgroud)

大文件的结构如下：

A1  A2
A1  A3
A1  A8
A2  A1
A2  A3
A3  A10
A3  A13

Run Code Online (Sandbox Code Playgroud)

并且大文件中的每个字符串都必须使用映射文件进行替换。

想要的结果：

B1  B2
B1  B3
B1  B8
B2  B1
B2  B3
B3  B10
B3  B13

Run Code Online (Sandbox Code Playgroud)

我尝试在映射文件的每一行上使用 awk，但这需要非常非常长的时间......这是 awk 命令。所以我编写了一个循环，为映射文件的每一行启动一个 awk 命令，我将结果保存在临时文件中，并将此结果在新的 awk 中与映射文件的下一行一起使用（我知道效率不是很高..）

cat inputBigFile.txt | awk '{ gsub( "A1","B1" );}1' > out.txt

Run Code Online (Sandbox Code Playgroud)

提前致谢

string awk dictionary replace

Nic*_*ick

2014 04-23

3
推荐指数

1
解决办法

2764
查看次数

重复排列

在R中,我如何产生一个组的所有排列,但在这个组中有一些重复的元素.

示例:

A = {1,1,2,2,3}

Run Code Online (Sandbox Code Playgroud)

方案:

1,1,2,2,3
1,1,2,3,2
1,1,3,2,2
1,2,1,2,3
1,2,2,1,3
1,2,2,3,1
.
.

Run Code Online (Sandbox Code Playgroud)

r permutation

Nic*_*ick

2012 10-10

1
推荐指数

1
解决办法

3174
查看次数

dplyr：mutate_impl（.data，点）中的错误：参数'times'不正确

我有一个小标题：

# A tibble: 2 × 2
  read_seq unique_id
     <chr>     <dbl>
1 AATTGGCC         1
2   GGGTTT         2

Run Code Online (Sandbox Code Playgroud)

我想创建一个包含与read_seq相同大小的字符串的新变量。我做到了，但是有一个错误：

> r %>% mutate(y=paste(rep("H",width(read_seq)),sep=""))
Error in mutate_impl(.data, dots) : argument 'times' incorrect

Run Code Online (Sandbox Code Playgroud)

当我只尝试捕获read_seq宽度时，它可以工作：

> r %>% mutate(y=width(read_seq))
# A tibble: 2 × 3
  read_seq unique_id     y
     <chr>     <dbl> <int>
1 AATTGGCC         1     8
2   GGGTTT         2     6

Run Code Online (Sandbox Code Playgroud)

这是可重现性示例的dput（）：

r <- structure(list(read_seq = c("AATTGGCC", "GGGTTT"), unique_id = c(1, 
2)), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA, 
-2L), .Names = c("read_seq", "unique_id"))

Run Code Online (Sandbox Code Playgroud)

r dplyr

Nic*_*ick

2017 08-21

1
推荐指数

1
解决办法

3173
查看次数