有没有人对与自定义报告编写相关的数据分析工作流程有任何了解?用例基本上是这样的:
客户委托使用数据分析的报告,例如人口估计和水区的相关地图.
分析人员下载一些数据,对数据进行检测并保存结果(例如,为每个单位添加一列,或根据区域边界对数据进行子集化).
分析师分析了(2)中创建的数据,接近她的目标,但看到需要更多数据,因此可以追溯到(1).
冲洗重复,直到表格和图形符合QA/QC并满足客户要求.
编写包含表格和图形的报告.
明年,快乐的客户回来了,想要更新.这应该像通过新下载更新上游数据一样简单(例如,从去年获得建筑许可),并按下"RECALCULATE"按钮,除非规格发生变化.
目前,我只是开始一个目录,并尽我所能.我想要一个更系统化的方法,所以我希望有人能够解决这个问题......我使用了电子表格,SQL,ARCGIS,R和Unix工具.
谢谢!
PS:
下面是一个基本的Makefile,用于检查各种中间数据集(带.RData后缀)和脚本(.R后缀)的依赖关系.使用时间戳来检查依赖关系,因此,如果您touch ss07por.csv,它将看到此文件比依赖它的所有文件/目标更新,并执行给定的脚本以便相应地更新它们.这仍然是一项正在进行的工作,包括放入SQL数据库的步骤,以及像sweave这样的模板语言的步骤.请注意,Make依赖于语法中的选项卡,因此请在剪切和粘贴之前阅读手册.享受并提供反馈!
http://www.gnu.org/software/make/manual/html_node/index.html#Top
R=/home/wsprague/R-2.9.2/bin/R
persondata.RData : ImportData.R ../../DATA/ss07por.csv Functions.R
$R --slave -f ImportData.R
persondata.Munged.RData : MungeData.R persondata.RData Functions.R
$R --slave -f MungeData.R
report.txt: TabulateAndGraph.R persondata.Munged.RData Functions.R
$R --slave -f TabulateAndGraph.R > report.txt
为了分享R的一些提示和技巧,你最有用的功能或技巧是什么?聪明的矢量化?数据输入/输出?可视化和图形?统计分析?特殊功能?互动环境本身?
每个帖子一个项目,我们将看看我们是否通过投票获得了胜利者.
[编辑2008年8月25日]:所以一周后,似乎简单str()赢得了民意调查.因为我想自己推荐一个,这是一个容易接受的答案.
首先我要说的是,我孜孜不倦地避免使用手工清理数据来支持正则表达式等.但是,偶尔也是不可避免的.
我通常使用类似Load-Clean-Func-Do工作流程的东西,所以这显然适合清洁阶段.但是,如果需要更新,任何手动编辑都会破坏在手动清洁之前运行这些东西的能力.
我能想到至少有三种方法可以解决这个问题:
2的问题在于它可能非常不合适.3的问题是我不知道任何这样的工具存在于R. Stata有一个非常好的实现.
所以问题是: