我想ggplot2从列表中创建多个绘图,grid.arrange但是在按行排列之前按行排列.
gg_list1 <- list(qplot(mpg, disp, data = mtcars),
qplot(hp, wt, data = mtcars),
qplot(qsec, wt, data = mtcars))
gg_list2 <- list(qplot(mpg, disp, data = mtcars),
qplot(hp, wt, data = mtcars),
qplot(qsec, wt, data = mtcars))
Run Code Online (Sandbox Code Playgroud)
我知道我可以这样做:
do.call(grid.arrange,c(gg_list1,gg_list2 , ncol = 2, nrow = 3))
Run Code Online (Sandbox Code Playgroud)
但它从上到下从左到右填充.
我试过这个:
do.call(grid.arrange, c(gg_list1, arrangeGrob(gg_list2, nrow = 3), ncol = 2))
Run Code Online (Sandbox Code Playgroud)
但是得到 Error: length(widths) == ncol is not TRUE
有任何想法吗?
我dplyr根据以下数据集准备汇总表时遇到问题:
set.seed(1)
df <- data.frame(rep(sample(c(2012,2016),10, replace = T)),
sample(c('Treat','Control'),10,replace = T),
runif(10,0,1),
runif(10,0,1),
runif(10,0,1))
colnames(df) <- c('Year','Group','V1','V2','V3')
Run Code Online (Sandbox Code Playgroud)
我要计算的平均数,中位数,标准差和计数观测由每个组合的数量Year和Group.
我已成功使用此代码获取mean,median并且sd:
summary.table = df %>%
group_by(Year, Group) %>%
summarise_all(funs(n(), sd, median, mean))
Run Code Online (Sandbox Code Playgroud)
但是,我不知道如何n()在funs()命令中引入该函数.它给了我计数V1,V2和V3.这是多余的,因为我只想要样本的大小.我试过介绍
mutate(N = n()) %>%
Run Code Online (Sandbox Code Playgroud)
在线之前和之后group_by(),但它没有给我我想要的东西.
有帮助吗?
编辑:我没有让我怀疑清楚.问题是代码给了我不需要的列,因为观察的数量V1对我来说已经足够了.
我可以从这个链接看到 R 相当于 seq 是 n:m in ( http://www.johnmyleswhite.com/notebook/2012/04/09/comparing-julia-and-rs-vocabularies/ )。
但seq(a,b, length.out = n)不包括的情况。
例如seq(1, 6, length.out=3)给出c(1.0, 3.5, 6.0). 这是指定输出数量的一种非常好的方法。
它在 Julia 中的等价物是什么?
我开始使用镶木地板文件格式。Apache 官方网站建议使用 512MB 到 1GB 的大行组(此处)。一些在线资源(例如这个)建议默认行组大小为 128MB。
我有大量 parquet 文件,稍后我将使用 AWS Glue 上的 PySpark 在下游处理这些文件。这些文件具有非常小的行组。我无法控制我开始使用的文件,但想要组合行组,以便在下游处理之前获得“更高效”的文件(为什么?这些文件将上传到 S3 并使用 Spark 进行处理;我的理解是Spark 一次会读取一个行组,因此更多较小的行组会导致 IO 操作增加,效率低下;如果此假设无效,请赐教)。
对于这个问题,我们只考虑其中一个文件。它经过压缩(经过snappy压缩),在磁盘上的大小为 85MB。当我使用该pqrs工具检查其架构时,它报告该文件在 1,115 个行组中有 55,733 条记录,每个行组似乎约为 500 kB - 具体来说,如下所示:
row group 7:
--------------------------------------------------------------------------------
total byte size: 424752
num of rows: 50
Run Code Online (Sandbox Code Playgroud)
如果我简单地采用(1115 个行组 * 500 kB/行组),则大约为 500MB;而磁盘上的文件为 85MB。诚然,有些行组小于 500kB,但我观察了大约 100 个行组(一半在顶部,一半在底部),它们都在大致范围内。
子问题 1: 差异是多少(计算值 500MB 与实际值 85MB),因为报告的行组大小实际上pqrs代表未压缩的大小,也许行组的内存大小是多少(大概会大于磁盘上的压缩序列化大小)?换句话说,我不能做一个简单的 1115 * 500 但必须应用某种压缩因子?
子问题2: 当我看到建议的批量大小是128MB时,这到底是什么意思?未压缩的内存大小?磁盘上的序列化压缩大小?还有别的事吗?它与 所报道的内容有什么关系pqrs …
我正在使用'tm'和'RWeka'进行一些初始文本挖掘,使用Knitr进行再现.
我正在尝试基于两个文本文件获取语料库的术语 - 文档矩阵,当我在RStudio中运行代码并将其编织成HTML文件时,该过程有不同的结果: 
...当我尝试其他文档输出PDF和Word输出时:
同意RStudio.
而且,我需要一个HTML输出....
对可能发生的事情有任何想法?
这是.Rmd代码
---
title: "test"
author: "me"
output: word_document
---
```{r init, echo=FALSE, warning=FALSE, cache=TRUE, message=FALSE}
library(knitr)
library(tm)
library(SnowballC)
library(RWeka)
setwd("~")
options(mc.cores=1) # some problems with parallel processing
```
```{r 1-gram-test, echo=FALSE, eval=TRUE,cache=TRUE}
doc1 <- c("en un lugar de la mancha de cuyo nombre no quiero acordarme habitaba un hidalgo de los de adarga antigual, rocín flaco y galgo corredor")
doc2 <- c("había una vez un barquito chiquitito, que no sabía, …Run Code Online (Sandbox Code Playgroud) 通过 ggplot,我使用下面的代码得到了如下图。但如果我这样绘图,我根本看不到 x 轴。我想知道是否有任何方法可以解决这个问题,例如更改每行中的列数。我已经尝试过ncol命令,facet_grid但它不允许我这样做。
ggplot(derivative, aes(x = factor(move), fill = factor(move)), colour = black)+
geom_bar()+
facet_grid(Market~Season)+
scale_fill_discrete(name="Relative Market Move",
breaks=c("neg.big", "neg.small", "pos.big", "pos.small"),
labels=c("Big Negative", "Small Negative", "Big Positive", "Small Positive"))+
scale_x_discrete(labels=c("Large Negative", "Small Negative", "large Positive", "Small Positive"))+
labs( x = "") +ylab("Count")
Run Code Online (Sandbox Code Playgroud)
我正在使用 R notebook 预览文件。即使所有代码都在一个块中,一行也被分成了两部分。你能告诉我如何解决这个问题吗?
但是,当我运行这个块时,它被分成两部分。
我不确定这是否重要,但这是我正在运行的代码。
library(MASS)
par(mfrow=c(3,1))
hist(galaxies, breaks=500)
hist(galaxies, breaks=100)
hist(galaxies, breaks=50)
Run Code Online (Sandbox Code Playgroud)
这里还有 R 和 RStudio 的版本。我是 R 的新手,所以我不确定是什么原因造成的。如果您需要任何其他信息,请告诉我。谢谢
R 版本 3.3.2 (2016-10-31)
Rstudio 版本 1.0.136
有没有办法在RMarkdown中隐藏打印语句?我编写了一个函数,它将有关算法学习行为的进度打印到R控制台.这是一个例子:
f <- function() {
print("Some printing")
return(1)
}
Run Code Online (Sandbox Code Playgroud)
在RMarkdown我有
```{r, eval = TRUE, results = "show"}
res = f()
print(res)
```
Run Code Online (Sandbox Code Playgroud)
这会在RMarkdown输出文件中添加"Some printing"和1.有没有办法抑制"一些打印",但保持功能的输出(这里1)?对于警告,错误和消息,有选项,但我找不到打印语句.
我想制作一个缩进列表,但我不希望它有子弹点或数字.我在RStudio中使用Rmarkdown,并编织为html.
#### bla bla bla
* Example indented line with bullet point
* Another indent with another bullet point
* Yea this is good except for the stupid bullets!
1. Example indented line with numbers
* sure and an indent with a bullet too
2. But there's these stupid numbers now!
two spaces doesn't indent at all
or nest indent with 4
yea still no indent with 2.
four spaces ALSO doesn't indent
just makes some stupid code
why do …Run Code Online (Sandbox Code Playgroud)