小编Jer*_*lim的帖子

独奏数据分析师的R和版本控制

我尊重的许多数据分析师都使用版本控制.例如:

但是,我正在评估采用像git这样的版本控制系统是否值得.

简要概述: 我是一名社会科学家,他使用R来分析研究出版物的数据.我目前不生产R包.我的项目R代码通常包括几千行代码,用于数据输入,清理,操作,分析和输出生成.出版物通常使用LaTeX编写.

关于版本控制,我已经阅读了许多好处,但它们似乎与独立数据分析师的相关性较低.

  • 备份:我已经有一个备份系统.
  • 分叉和倒带:我从来没有觉得有必要这样做,但我可以看到它是如何有用的(例如,你正在准备基于相同数据集的多篇期刊文章;你正在准备一份每月更新的报告,等等)
  • 协作:大多数时候我自己分析数据,因此,我不会获得版本控制的协作优势.

采用版本控制还涉及几个潜在成本:

  • 是时候评估和学习版本控制系统了
  • 与我当前的文件管理系统相比,复杂性可能会增加

但是,我仍然觉得我错过了什么.关于版本控制的一般指南似乎比数据分析师更多地针对计算机科学家.

因此,特别在类似于上面列出的情况下的数据分析师:

  1. 版本控制是值得的吗?
  2. 采用版本控制的主要优点和缺点是什么?
  3. 使用R开始使用版本控制进行数据分析的好策略是什么(例如,示例,工作流程思路,软件,指南链接)?

git version-control r

149
推荐指数
10
解决办法
4万
查看次数

R是否适用于家庭而不是语法糖?

......关于执行时间和/或记忆.

如果不是这样,请使用代码段进行证明.请注意,矢量化的加速不计算在内.增速必须来自apply(tapply,sapply,...)本身.

r apply

146
推荐指数
5
解决办法
2万
查看次数

从数据框中删除所有值为NA的列

我有一个数据帧麻烦,不能真正解决这个问题我自己:
数据帧具有任意的性质列每一行代表一个数据集.

问题是:
如何摆脱所有行的值为NA的列

r apply dataframe

127
推荐指数
8
解决办法
9万
查看次数

如何将R Markdown转换为PDF?

我之前已经问过将R Markdown转换为HTML命令.

将R Markdown文件转换为PDF文档的好方法是什么?

一个好的解决方案将尽可能多地保留内容(例如,图像,方程式,html表等).解决方案需要能够从命令行运行.一个好的解决方案也是跨平台的,理想情况下最小化依赖关系,以便更容易共享makefile等等.

具体来说,有很多选择:

  • 是否将RMD转换为MD转换为HTML转换为PDF; 或RMD到MD到PDF; 或RMD到PDF
  • 如果markdown在R中使用包,则指定哪些选项
  • 是否使用pandoc,R内置的包或其他东西

这是一个示例rmd文件,可能会对任何提议的解决方案提供合理的测试.它被用作这篇博客文章的基础.

pandoc knitr r-markdown

125
推荐指数
5
解决办法
9万
查看次数

使用R下载压缩数据文件,提取和导入数据

@EZGraphs在Twitter上写道:"很多在线csv都是压缩的.有没有办法下载,解压缩档案,并使用R?#Rstats将数据加载到data.frame"

我今天也试图这样做,但最终只是手动下载zip文件.

我尝试过类似的东西:

fileName <- "http://www.newcl.org/data/zipfiles/a1.zip"
con1 <- unz(fileName, filename="a1.dat", open = "r")
Run Code Online (Sandbox Code Playgroud)

但我觉得我还有很长的路要走.有什么想法吗?

connection zip r

118
推荐指数
7
解决办法
11万
查看次数

使用R,Sweave和LaTeX创建发布质量表的一般指南

有一系列工具可用于使用R,Sweave和LaTeX创建发布质量表.特别是,有辅助功能,如latexHmisc包,并xtable在该xtable包中.我也经常编写自己的代码,这样我就可以完全控制表格式(例如,参见这个例子).

但是,在准备出版物质量表时,通常会出现一系列问题:

  • 如何以及何时应用数字格式
  • 如何精确控制列和单元格的对齐方式
  • 如何精确控制细胞边界
  • 如何将变量标签转换为变量名称
  • 等等

除了指定所需表格格式的高级问题之外,还存在实施问题.

  • 应该何时使用辅助功能xtable
  • 在给定的情况下应该使用哪个辅助函数?
  • 如何根据特定要求定制辅助函数的默认输出?

在我看来,上述问题值得详细的教科书式介绍.

是否有任何在线或离线资源提供如何使用R,Sweave和LaTeX生成出版质量表的详细概述,并解决上述问题?

r sweave xtable

77
推荐指数
2
解决办法
3万
查看次数

如何像源代码('myfile.r')那样获取R Markdown文件?

我经常有一个主R Markdown文件或knitr LaTeX文件,其中我source有一些其他R文件(例如,用于数据处理).但是,我认为在某些情况下,将这些源文件作为自己的可再现文档(例如,R Markdown文件不仅包括用于数据处理的命令,而且还生成可重复的文档来解释数据处理将是有益的.决定).

因此,我想source('myfile.rmd')在我的主R Markdown文件中有一个命令.这将提取和源代码的R代码块内的所有R代码myfile.rmd.当然,这会引起错误.

以下命令有效:

```{r message=FALSE, results='hide'}
knit('myfile.rmd', tangle=TRUE)
source('myfile.R')
```
Run Code Online (Sandbox Code Playgroud)

results='hide'如果需要输出,可以省略.即,从knitr输出的R代码myfile.rmdmyfile.R.

但是,它似乎并不完美:

  • 它导致创建一个额外的文件
  • 如果需要控制显示,它需要出现在它自己的代码块中.
  • 它并不像简单那么优雅source(...).

因此我的问题: 是否有更优雅的方式来获取R Markdown文件的R代码?

markdown r knitr

74
推荐指数
3
解决办法
3万
查看次数

如何将R Markdown转换为HTML?即,"编织HTML"在R96 0.96中做了什么?

在Rstudio 0.96中的R Markdown文件上按"Knit HTML"时会运行什么命令?

我的动机是,当我在另一个文本编辑环境中时,我可能想要运行相同的命令,或者我可能想要将命令组合成更大的命令makefile.

r rstudio knitr r-markdown

66
推荐指数
4
解决办法
4万
查看次数

将Excel工作簿中的所有工作表读入包含data.frames的R列表

据我所知,XLConnect可以用来将Excel工作表读入R.例如,这将读取一个名为test.xlsR 的工作簿中的第一个工作表.

library(XLConnect)
readWorksheetFromFile('test.xls', sheet = 1)
Run Code Online (Sandbox Code Playgroud)

我有一个包含多个工作表的Excel工作簿.

如何将工作簿中的所有工作表导入到R中的列表中,其中列表的每个元素都是给定工作表的data.frame,并且每个元素的名称对应于Excel中工作表的名称?

excel r xlconnect

62
推荐指数
8
解决办法
9万
查看次数

在Vim中使用命令行模式中的正常模式运动

在命令行模式下是否可以进行模态编辑?

一些例子:

  • 写完后!ls ~/foo/bar我想db删除
  • 我执行上述命令,现在我想改lsmv和跳回$

vi vim

58
推荐指数
5
解决办法
1万
查看次数