给定一个1.5 Gb的熊猫数据帧列表,哪种格式是加载压缩数据最快的格式:pickle(通过cPickle),hdf5或Python中的其他格式?
我只考虑两种存储格式:HDF5(PyTables)和Feather
这是我对DF(形状:4000000 x 6,内存大小183.1 MB,未压缩CSV大小-492 MB)进行读写比较的结果。
以下存储格式比较:( ,CSV
,,CSV.gzip
[各种压缩]):Pickle
HDF5
read_s write_s size_ratio_to_CSV
storage
CSV 17.900 69.00 1.000
CSV.gzip 18.900 186.00 0.047
Pickle 0.173 1.77 0.374
HDF_fixed 0.196 2.03 0.435
HDF_tab 0.230 2.60 0.437
HDF_tab_zlib_c5 0.845 5.44 0.035
HDF_tab_zlib_c9 0.860 5.95 0.035
HDF_tab_bzip2_c5 2.500 36.50 0.011
HDF_tab_bzip2_c9 2.500 36.50 0.011
但这对您来说可能有所不同,因为我的所有数据都是datetime
dtype,因此最好将它与您的真实数据或至少与相似数据进行比较...
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句