20个新闻组数据集包含大约18000个新闻组帖子,而sklearn仅加载大约一半的数据集,为什么?

约翰·约翰

20个新闻组数据集包括20个主题围绕18000新闻组帖子一分为二的子集。

而sklearn仅加载数据集的大约一半

>>> from sklearn.datasets import fetch_20newsgroups
>>> newsgroups_train = fetch_20newsgroups(subset='train')
>>> newsgroups_train.filenames.shape
(11314,)

为什么sklearn仅加载大约一半的数据集?

乔·哈利韦尔

您正在获取train数据子集。test保留数据集(的其他块以进行测试。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

Related 相关文章

热门标签

归档