为了复制,我喜欢为每个数据帧保留一个包含元数据的码本.数据码本是:
书面或计算机化列表,提供将包含在数据库中的变量的清晰而全面的描述. Marczyk等(2010)
我想记录变量的以下属性:
- 名称
- 描述(标签,格式,比例等)
- 来源(例如世界银行)
- 源媒体(访问的网址和日期,CD和ISBN,或其他)
- 磁盘上源数据的文件名(合并代码簿时有帮助)
- 笔记
例如,这是我实现的用于记录数据框mydata1中具有8个变量的变量:
code.book.mydata1 <- data.frame(variable.name=c(names(mydata1)),
label=c("Label 1",
"State name",
"Personal identifier",
"Income per capita, thousand of US$, constant year 2000 prices",
"Unique id",
"Calendar year",
"blah",
"bah"),
source=rep("unknown",length(mydata1)),
source_media=rep("unknown",length(mydata1)),
filename = rep("unknown",length(mydata1)),
notes = rep("unknown",length(mydata1))
)
Run Code Online (Sandbox Code Playgroud)
我为我读过的每个数据集写了一个不同的代码簿.当我合并数据帧时,我还将合并其相关代码簿的相关方面,以记录最终数据库.我这样做主要是复制粘贴上面的代码并更改参数.