我有一个包含分类数据的数据集,并使用DictVectorizer将数据转换为数字。
# training data
vect = DictVectorizer(sparse=False)
x = vect.fit_transform(samples)
# test data
vect.transform(samples)
但是此代码在大型数据集中会造成内存问题,因为当每个类别由许多类型组成时,它会占用过多的内存。
我想要一种解决方案或算法来解决内存成本问题
将稀疏更改为true
vect = DictVectorizer(sparse = False)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句