将大型SAS数据集转换为hdf5

Vgregoire

我有多个大型(> 10GB)SAS数据集,我希望将其转换为用于熊猫(最好是HDF5)中。我有很多不同的数据类型(日期,数字,文本),并且某些数字字段对于缺失的值(例如,值可以是。,。E,.C等)也具有不同的错误代码,我希望保留列名并标记元数据。有没有人找到一种有效的方法来做到这一点?

我尝试使用MySQL作为两者之间的桥梁,但是在传输时出现了一些超出范围的错误,而且速度非常慢。我也尝试以Stata .dta格式从SAS导出,但是SAS(9.3)以旧的Stata格式导出,该格式与大熊猫中的read_stat()不兼容。我也尝试过sas7bdat软件包,但是从描述来看,它尚未得到广泛测试,因此我想以另一种方式加载数据集并比较结果以确保一切正常。

额外的细节:我想要转换的数据集来自WRDS的CRSP,Compustat,IBES和TFN。

DomPazz

过去我对此没有多大运气。我们(在我工作的地方)仅使用制表符分隔的文件在SAS和Python之间进行传输-我们做了很多工作。

也就是说,如果您使用的是Windows,则可以尝试建立ODBC连接并以这种方式写入文件。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

将大型SAS数据集转换为hdf5

来自分类Dev

将通过pandas / pytables编写的大型hdf5数据集转换为vaex

来自分类Dev

将大型CSV转换为HDF5

来自分类Dev

将C ++数据结构转换为可理解的HDF5数据集(向量对)

来自分类Dev

将hdf5文件转换为灰度

来自分类Dev

如何将这种类型的数据<hdf5对象引用>转换为在python中更易读的内容?

来自分类Dev

SAS:将窄数据集转换为宽数据集

来自分类Dev

将大型数据集转换为精简对象

来自分类Dev

HDF5:如何将数据追加到数据集(可扩展数组)

来自分类Dev

将数据从hdf5数据集传输到numpy数组时精度下降

来自分类Dev

将数据从hdf5数据集传输到numpy数组时精度下降

来自分类Dev

将hdf5转换为netcdf并重命名尺寸

来自分类Dev

按列将SAS数据集转换为相对频率

来自分类Dev

在Julia中调整HDF5数据集的大小

来自分类Dev

无法在Python中创建HDF5数据集的引用

来自分类Dev

向负方向扩展HDF5数据集

来自分类Dev

无法在 Python 中创建 HDF5 数据集的引用

来自分类Dev

HDF5 简单读取数据集失败

来自分类Dev

将大型SAS数据集拆分为较小的数据集

来自分类Dev

将数据从HDF5加载到C ++中的矢量

来自分类Dev

将数据从HDF5加载到C ++中的矢量

来自分类Dev

合并行+合并大型数据集的值(将SQL导出转换为多值)

来自分类Dev

使用大型数据集将JSON解析输出转换为CSV

来自分类Dev

将更多数据集添加到现有的Hdf5文件中,而不删除其他组和数据集

来自分类Dev

如何区分HDF5数据集和具有h5py的组?

来自分类Dev

访问包含异常数据类型的HDF5文件中的数据集

来自分类Dev

如何使用UTF8编码将sas数据集导出或转换为.txt文件?

来自分类Dev

将 2 个 sas 数据集转换为 2 个矩阵以执行除法和乘以千

来自分类Dev

将 SAS 中的数据集转换为单向方差分析

Related 相关文章

  1. 1

    将大型SAS数据集转换为hdf5

  2. 2

    将通过pandas / pytables编写的大型hdf5数据集转换为vaex

  3. 3

    将大型CSV转换为HDF5

  4. 4

    将C ++数据结构转换为可理解的HDF5数据集(向量对)

  5. 5

    将hdf5文件转换为灰度

  6. 6

    如何将这种类型的数据<hdf5对象引用>转换为在python中更易读的内容?

  7. 7

    SAS:将窄数据集转换为宽数据集

  8. 8

    将大型数据集转换为精简对象

  9. 9

    HDF5:如何将数据追加到数据集(可扩展数组)

  10. 10

    将数据从hdf5数据集传输到numpy数组时精度下降

  11. 11

    将数据从hdf5数据集传输到numpy数组时精度下降

  12. 12

    将hdf5转换为netcdf并重命名尺寸

  13. 13

    按列将SAS数据集转换为相对频率

  14. 14

    在Julia中调整HDF5数据集的大小

  15. 15

    无法在Python中创建HDF5数据集的引用

  16. 16

    向负方向扩展HDF5数据集

  17. 17

    无法在 Python 中创建 HDF5 数据集的引用

  18. 18

    HDF5 简单读取数据集失败

  19. 19

    将大型SAS数据集拆分为较小的数据集

  20. 20

    将数据从HDF5加载到C ++中的矢量

  21. 21

    将数据从HDF5加载到C ++中的矢量

  22. 22

    合并行+合并大型数据集的值(将SQL导出转换为多值)

  23. 23

    使用大型数据集将JSON解析输出转换为CSV

  24. 24

    将更多数据集添加到现有的Hdf5文件中,而不删除其他组和数据集

  25. 25

    如何区分HDF5数据集和具有h5py的组?

  26. 26

    访问包含异常数据类型的HDF5文件中的数据集

  27. 27

    如何使用UTF8编码将sas数据集导出或转换为.txt文件?

  28. 28

    将 2 个 sas 数据集转换为 2 个矩阵以执行除法和乘以千

  29. 29

    将 SAS 中的数据集转换为单向方差分析

热门标签

归档