R中的数据字典打包

Question

R中的数据字典打包

Ros*_*lly 7 r

我想在R中编写一个数据字典函数,以数据框作为参数,将执行以下操作:

1)创建一个文本文件:

一个.通过按类别,观察数量,完整观察数量等列出变量数量来总结数据框架

湾对于每个变量,总结关于该变量的关键事实:平均值,最小值,最大值,模式,缺失观测值的数量等

2)为每个数字或整数变量创建包含直方图的pdf,并为每个属性变量创建条形图.

基本思想是使用一个函数创建数据框的数据字典.

我的问题是:有没有一个包已经做到了这一点？如果没有,人们会认为这将是一个有用的功能吗？谢谢

Answer 1

42-*_*42- 6

describe各种包装中有各种功能.我最熟悉的是Hmisc :: describe.以下是其帮助页面中的说明:

"此函数确定变量是字符,因子,类别,二进制,离散数字还是连续数字,并根据每个数据打印简明的统计摘要.如果数字变量具有<= 10个唯一值,则该变量被视为离散.如果不包含20个唯一值,则对任何非二进制变量打印频率表.对于任何具有至少20个唯一值的变量,将打印5个最低和最高值.

以及输出的一个例子:

Hmisc::describe(work2[, c("CHOLEST","HDL")])
work2[, c("CHOLEST", "HDL")] 

 2  Variables      5325006  Observations
----------------------------------------------------------------------------------
CHOLEST 
      n missing  unique    Mean     .05     .10     .25     .50     .75     .90 
4410307  914699     689   199.4     141     152     172     196     223     250 
    .95 
    268 

lowest :    0   10   19   20   31, highest: 1102 1204 1213 1219 1234 
----------------------------------------------------------------------------------
HDL 
      n missing  unique    Mean     .05     .10     .25     .50     .75     .90 
4410298  914708     258    54.2      32      36      43      52      63      75 
    .95 
     83 

lowest : -11.0   0.0   0.2   1.0   2.0, highest: 241.0 243.0 248.0 272.0 275.0 
----------------------------------------------------------------------------------

Run Code Online (Sandbox Code Playgroud)

此外,关于获得直方图的观点,描述对象的Hmisc :: latex方法将在上面显示的输出中产生交错的直方图.(你需要有一个LaTeX安装功能来利用它.)我很确定你可以在Harrell的网站上找到输出的插图,或者在他的书"回归建模策略"的亚马逊"Look Inside"演示中找到输出的例子. ".这本书有大量有关数据分析的有用资料.

归档时间：	14 年，3 月前
查看次数：	2629 次
最近记录：	14 年，3 月前