小编ali*_*ire的帖子

grid.arrange ggplot2按列而不是按行使用列表绘制

我想ggplot2从列表中创建多个绘图,grid.arrange但是在按行排列之前按行排列.

gg_list1 <- list(qplot(mpg, disp, data = mtcars), 
                 qplot(hp, wt, data = mtcars), 
                 qplot(qsec, wt, data = mtcars))

gg_list2 <- list(qplot(mpg, disp, data = mtcars), 
                 qplot(hp, wt, data = mtcars), 
                 qplot(qsec, wt, data = mtcars))
Run Code Online (Sandbox Code Playgroud)

我知道我可以这样做:

do.call(grid.arrange,c(gg_list1,gg_list2 , ncol = 2, nrow  = 3))
Run Code Online (Sandbox Code Playgroud)

但它从上到下从左到右填充.

我试过这个:

 do.call(grid.arrange, c(gg_list1, arrangeGrob(gg_list2, nrow = 3), ncol = 2))
Run Code Online (Sandbox Code Playgroud)

但是得到 Error: length(widths) == ncol is not TRUE

有任何想法吗?

r list ggplot2 gridextra r-grid

6
推荐指数
1
解决办法
4827
查看次数

在计算其他摘要统计信息的同时使用n()

dplyr根据以下数据集准备汇总表时遇到问题:

set.seed(1)
df <- data.frame(rep(sample(c(2012,2016),10, replace = T)),
                 sample(c('Treat','Control'),10,replace = T),
                 runif(10,0,1),
                 runif(10,0,1),
                 runif(10,0,1))

 colnames(df) <- c('Year','Group','V1','V2','V3')
Run Code Online (Sandbox Code Playgroud)

我要计算的平均数,中位数,标准差和计数观测由每个组合的数量YearGroup.

我已成功使用此代码获取mean,median并且sd:

summary.table = df %>% 
    group_by(Year, Group) %>%
    summarise_all(funs(n(), sd, median, mean))
Run Code Online (Sandbox Code Playgroud)

但是,我不知道如何n()funs()命令中引入该函数.它给了我计数V1,V2V3.这是多余的,因为我只想要样本的大小.我试过介绍

    mutate(N = n()) %>%
Run Code Online (Sandbox Code Playgroud)

在线之前和之后group_by(),但它没有给我我想要的东西.

有帮助吗?


编辑:我没有让我怀疑清楚.问题是代码给了我不需要的列,因为观察的数量V1对我来说已经足够了.

r summary dplyr

6
推荐指数
2
解决办法
1243
查看次数

Julia 相当于 R 的 seq(..., length.out = n)

我可以从这个链接看到 R 相当于 seq 是 n:m in ( http://www.johnmyleswhite.com/notebook/2012/04/09/comparing-julia-and-rs-vocabularies/ )。

seq(a,b, length.out = n)不包括的情况。

例如seq(1, 6, length.out=3)给出c(1.0, 3.5, 6.0). 这是指定输出数量的一种非常好的方法。

它在 Julia 中的等价物是什么?

r julia

6
推荐指数
1
解决办法
722
查看次数

提到镶木地板行组大小时实际意味着什么?

我开始使用镶木地板文件格式。Apache 官方网站建议使用 512MB 到 1GB 的大行组(此处)。一些在线资源(例如这个)建议默认行组大小为 128MB。

我有大量 parquet 文件,稍后我将使用 AWS Glue 上的 PySpark 在下游处理这些文件。这些文件具有非常小的行组。我无法控制我开始使用的文件,但想要组合行组,以便在下游处理之前获得“更高效”的文件(为什么?这些文件将上传到 S3 并使用 Spark 进行处理;我的理解是Spark 一次会读取一个行组,因此更多较小的行组会导致 IO 操作增加,效率低下;如果此假设无效,请赐教)。

对于这个问题,我们只考虑其中一个文件。它经过压缩(经过snappy压缩),在磁盘上的大小为 85MB。当我使用该pqrs工具检查其架构时,它报告该文件在 1,115 个行组中有 55,733 条记录,每个行组似乎约为 500 kB - 具体来说,如下所示:

row group 7:
--------------------------------------------------------------------------------
total byte size: 424752
num of rows: 50
Run Code Online (Sandbox Code Playgroud)

如果我简单地采用(1115 个行组 * 500 kB/行组),则大约为 500MB;而磁盘上的文件为 85MB。诚然,有些行组小于 500kB,但我观察了大约 100 个行组(一半在顶部,一半在底部),它们都在大致范围内。

子问题 1: 差异是多少(计算值 500MB 与实际值 85MB),因为报告的行组大小实际上pqrs代表未压缩的大小,也许行组的内存大小是多少(大概会大于磁盘上的压缩序列化大小)?换句话说,我不能做一个简单的 1115 * 500 但必须应用某种压缩因子?

子问题2: 当我看到建议的批量大小是128MB时,这到底是什么意思?未压缩的内存大小?磁盘上的序列化压缩大小?还有别的事吗?它与 所报道的内容有什么关系pqrs …

parquet apache-arrow pyarrow

6
推荐指数
1
解决办法
4009
查看次数

Knitr提供的结果与RStudio不同

我正在使用'tm'和'RWeka'进行一些初始文本挖掘,使用Knitr进行再现.

我正在尝试基于两个文本文件获取语料库的术语 - 文档矩阵,当我在RStudio中运行代码并将其编织成HTML文件时,该过程有不同的结果: HTML文件

...当我尝试其他文档输出PDF和Word输出时:PDF和Word输出

同意RStudio.

而且,我需要一个HTML输出....

对可能发生的事情有任何想法?

这是.Rmd代码

---
title: "test"
author: "me"
output: word_document
---

```{r init, echo=FALSE, warning=FALSE, cache=TRUE, message=FALSE}
library(knitr)
library(tm)
library(SnowballC)
library(RWeka)
setwd("~")
options(mc.cores=1) # some problems with parallel processing
```
```{r 1-gram-test, echo=FALSE, eval=TRUE,cache=TRUE}

doc1 <- c("en un lugar de la mancha de cuyo nombre no quiero acordarme habitaba un hidalgo de los de adarga antigual, rocín flaco y galgo corredor")
doc2 <- c("había una vez un barquito chiquitito, que no sabía, …
Run Code Online (Sandbox Code Playgroud)

r knitr rweka

5
推荐指数
1
解决办法
1053
查看次数

从R的单个列中的所有数据中删除前缀

我将有一列数据如下所示:

M999-00001
M999-00002
...
Run Code Online (Sandbox Code Playgroud)

有没有办法删除R列中的所有'M'?

r prefix

5
推荐指数
1
解决办法
3607
查看次数

R:如何更改facet_grid中每行的列数

通过 ggplot,我使用下面的代码得到了如下图。但如果我这样绘图,我根本看不到 x 轴。我想知道是否有任何方法可以解决这个问题,例如更改每行中的列数。我已经尝试过ncol命令,facet_grid但它不允许我这样做。

ggplot(derivative, aes(x = factor(move), fill = factor(move)), colour = black)+ 
geom_bar()+
facet_grid(Market~Season)+
 scale_fill_discrete(name="Relative Market Move",
                  breaks=c("neg.big", "neg.small", "pos.big", "pos.small"),
                  labels=c("Big Negative", "Small Negative", "Big Positive", "Small Positive"))+
 scale_x_discrete(labels=c("Large Negative", "Small Negative", "large Positive", "Small Positive"))+
labs( x = "") +ylab("Count") 
Run Code Online (Sandbox Code Playgroud)

狭窄的多面情节

r ggplot2

5
推荐指数
1
解决办法
2968
查看次数

R Notebook - 代码块在预览中分离

我正在使用 R notebook 预览文件。即使所有代码都在一个块中,一行也被分成了两部分。你能告诉我如何解决这个问题吗?

如您所见,所有代码都在一个块中。 在此处输入图片说明

但是,当我运行这个块时,它被分成两部分。

在此处输入图片说明

我不确定这是否重要,但这是我正在运行的代码。

library(MASS)
par(mfrow=c(3,1)) 

hist(galaxies, breaks=500)
hist(galaxies, breaks=100)
hist(galaxies, breaks=50)
Run Code Online (Sandbox Code Playgroud)

这里还有 R 和 RStudio 的版本。我是 R 的新手,所以我不确定是什么原因造成的。如果您需要任何其他信息,请告诉我。谢谢

R 版本 3.3.2 (2016-10-31)
Rstudio 版本 1.0.136

r rstudio knitr r-markdown rnotebook

5
推荐指数
0
解决办法
565
查看次数

隐藏RMarkdown中的打印语句

有没有办法在RMarkdown中隐藏打印语句?我编写了一个函数,它将有关算法学习行为的进度打印到R控制台.这是一个例子:

f <- function() {
  print("Some printing")
  return(1)
}
Run Code Online (Sandbox Code Playgroud)

在RMarkdown我有

```{r, eval = TRUE, results = "show"}
res = f()
print(res)
```
Run Code Online (Sandbox Code Playgroud)

这会在RMarkdown输出文件中添加"Some printing"和1.有没有办法抑制"一些打印",但保持功能的输出(这里1)?对于警告,错误和消息,有选项,但我找不到打印语句.

r r-markdown

5
推荐指数
1
解决办法
1566
查看次数

缩进而不在RMarkdown中添加项目符号或数字

我想制作一个缩进列表,但我不希望它有子弹点或数字.我在RStudio中使用Rmarkdown,并编织为html.

#### bla bla bla  

* Example indented line with bullet point  
    * Another indent with another bullet point  
* Yea this is good except for the stupid bullets!  

1. Example indented line with numbers  
    * sure and an indent with a bullet too  
2. But there's these stupid numbers now!  

  two spaces doesn't indent at all  
    or nest indent with 4  
  yea still no indent with 2.  

    four spaces ALSO doesn't indent  
      just makes some stupid code
    why do …
Run Code Online (Sandbox Code Playgroud)

markdown r html-lists knitr r-markdown

5
推荐指数
2
解决办法
2805
查看次数