这是我的熊猫数据框:
Item Support_Count
0 BREAD 4
1 MILK 4
2 DIAPER 4
3 BEER 3
我将如何从第一列“项目”中生成2和3组项目的所有可能的唯一组合。
示例(2套):(面包,牛奶),(面包,尿布),(面包,啤酒),(牛奶,尿布)等
示例(3个项目集):(面包,牛奶,尿布),(面包,牛奶,啤酒),(牛奶,尿布,啤酒)等
您可以使用该itertools
库:
import itertools
list(itertools.combinations(df['Item'], 2))
[('BREAD', 'MILK'),
('BREAD', 'DIAPER'),
('BREAD', 'BEER'),
('MILK', 'DIAPER'),
('MILK', 'BEER'),
('DIAPER', 'BEER')]
list(itertools.combinations(df['Item'], 3))
[('BREAD', 'MILK', 'DIAPER'),
('BREAD', 'MILK', 'BEER'),
('BREAD', 'DIAPER', 'BEER'),
('MILK', 'DIAPER', 'BEER')]
注意:组合的数量增长很快,因此生成所有可能的组合可能并不高效。如果您尚未这样做,我建议您看一下apriori算法的实现。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句