小编vgr*_*ire的帖子

将大型SAS数据集转换为hdf5

我有多个大型(> 10GB)SAS数据集,我想转换它们用于pandas,最好是HDF5.有许多不同的数据类型(日期,数字,文本),一些数字字段也有不同的错误代码用于缺失值(即值可以是.,.E,.C等)我希望保留列名和标签元数据.有没有人找到一种有效的方法来做到这一点?

我尝试使用MySQL作为两者之间的桥梁,但我在传输时遇到了一些超出范围的错误,而且速度非常慢.我也试过以Stata .dta格式从SAS导出,但SAS(9.3)以旧的Stata格式导出,与pandas中的read_stat()不兼容.我也尝试了sas7bdat包,但是从描述中它还没有被广泛测试,所以我想以另一种方式加载数据集并比较结果以确保一切正常.

额外的细节:我想要转换的数据集是来自WRDS的CRSP,Compustat,IBES和TFN的数据集.

python sas hdf5 pandas

10
推荐指数
1
解决办法
1747
查看次数

标签 统计

hdf5 ×1

pandas ×1

python ×1

sas ×1