将大型SAS数据集转换为hdf5

Question

将大型SAS数据集转换为hdf5

我有多个大型(> 10GB)SAS数据集,我想转换它们用于pandas,最好是HDF5.有许多不同的数据类型(日期,数字,文本),一些数字字段也有不同的错误代码用于缺失值(即值可以是.,.E,.C等)我希望保留列名和标签元数据.有没有人找到一种有效的方法来做到这一点？

我尝试使用MySQL作为两者之间的桥梁,但我在传输时遇到了一些超出范围的错误,而且速度非常慢.我也试过以Stata .dta格式从SAS导出,但SAS(9.3)以旧的Stata格式导出,与pandas中的read_stat()不兼容.我也尝试了sas7bdat包,但是从描述中它还没有被广泛测试,所以我想以另一种方式加载数据集并比较结果以确保一切正常.

额外的细节:我想要转换的数据集是来自WRDS的CRSP,Compustat,IBES和TFN的数据集.

Answer 1

Dom*_*azz 1

我过去在这方面运气不太好。我们（我工作的地方）只是使用制表符分隔的文件在 SAS 和 Python 之间进行传输——而且我们经常这样做。

也就是说，如果您使用的是 Windows，则可以尝试设置 ODBC 连接并以这种方式写入文件。

归档时间：	11 年，8 月前
查看次数：	1747 次
最近记录：	11 年，4 月前