vgr*_*ire 10 python sas hdf5 pandas
我有多个大型(> 10GB)SAS数据集,我想转换它们用于pandas,最好是HDF5.有许多不同的数据类型(日期,数字,文本),一些数字字段也有不同的错误代码用于缺失值(即值可以是.,.E,.C等)我希望保留列名和标签元数据.有没有人找到一种有效的方法来做到这一点?
我尝试使用MySQL作为两者之间的桥梁,但我在传输时遇到了一些超出范围的错误,而且速度非常慢.我也试过以Stata .dta格式从SAS导出,但SAS(9.3)以旧的Stata格式导出,与pandas中的read_stat()不兼容.我也尝试了sas7bdat包,但是从描述中它还没有被广泛测试,所以我想以另一种方式加载数据集并比较结果以确保一切正常.
额外的细节:我想要转换的数据集是来自WRDS的CRSP,Compustat,IBES和TFN的数据集.
我过去在这方面运气不太好。我们(我工作的地方)只是使用制表符分隔的文件在 SAS 和 Python 之间进行传输——而且我们经常这样做。
也就是说,如果您使用的是 Windows,则可以尝试设置 ODBC 连接并以这种方式写入文件。