20个新闻组数据集包含大约18000个新闻组帖子，而sklearn仅加载大约一半的数据集，为什么？

debugcn 发表于 Dev

约翰·约翰

在20个新闻组数据集包括20个主题围绕18000新闻组帖子一分为二的子集。

而sklearn仅加载数据集的大约一半

>>> from sklearn.datasets import fetch_20newsgroups
>>> newsgroups_train = fetch_20newsgroups(subset='train')
>>> newsgroups_train.filenames.shape
(11314,)

为什么sklearn仅加载大约一半的数据集？

乔·哈利韦尔

您正在获取train数据的子集。test保留数据集（）的其他块以进行测试。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-04-1

我来说两句

0条评论

登录后参与评论

上一篇：如何在多个设备上并行运行测试？
下一篇：如何使用复杂绑定来显示键，而不是显示view.xml中的键值对中的值

Related 相关文章

文章

20个新闻组数据集包含大约18000个新闻组帖子，而sklearn仅加载大约一半的数据集，为什么？

20个新闻组数据集包含大约18000个新闻组帖子，而sklearn仅加载大约一半的数据集，为什么？

我来说两句

相关文章

Related 相关文章

热门标签

归档