在20个新闻组数据集包括20个主题围绕18000新闻组帖子一分为二的子集。
而sklearn仅加载数据集的大约一半
>>> from sklearn.datasets import fetch_20newsgroups
>>> newsgroups_train = fetch_20newsgroups(subset='train')
>>> newsgroups_train.filenames.shape
(11314,)
为什么sklearn仅加载大约一半的数据集?
您正在获取train
数据的子集。test
保留数据集()的其他块以进行测试。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句