我有一个包含3列的数据框:其中一个是“ groupby”列,另外两个是带有值的“普通”列。我也想生成一个箱线图和一个条形图。在条形图上,我想可视化每个组元素的出现次数。让我的示例代码更详细地告诉此数据框:
li_str = ['one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight', 'nine', 'ten']
df = pd.DataFrame([[i]+j[k] for i,j in {li_str[i]:np.random.randn(j, 2).tolist() for i,j in \
enumerate(np.random.randint(5, 15, len(li_str)))}.items() for k in range(len(j))]
, columns=['A', 'B', 'C'])
因此,以上我为其中的每个元素生成了随机数的随机值,li_str
并针对列B
和进行了处理C
。
然后,我仅可视化一个箱线图:
fig, ax = plt.subplots(figsize=(16,6))
p1 = df.boxplot(ax=ax, column='B', by='A', sym='')
现在,我将每个组具有的元素数量可视化(因此,我上面用np.random.randint(5, 15, len(li_str))
代码生成的随机数):
fig, ax = plt.subplots(figsize=(16,6))
df_gb = df.groupby('A').count()
p2 = df_gb['B'].plot(ax=ax, kind='bar', figsize=(16,6), colormap='Set2', alpha=0.3)
plt.ylim([0, 20])
现在,我希望将这两个合二为一:
fig, ax = plt.subplots(figsize=(16,6))
ax2 = ax.twinx()
df_gb = df.groupby('A').count()
p1 = df.boxplot(ax=ax, column='B', by='A', sym='')
p2 = df_gb['B'].plot(ax=ax2, kind='bar', figsize=(16,6)
, colormap='Set2', alpha=0.3, secondary_y=True)
plt.ylim([0, 20])
有人知道为什么我的箱线图通过一个X轴刻度线向右移动吗?我使用Python 3.5.1,Pandas 0.17.0,matplotlib 1.4.3
谢谢!!!
这是因为即使标签相同,箱形图和条形图也不会使用相同的xticks。
df.boxplot(column='B', by='A')
plt.xticks()
(array([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]), <a list of 10 Text xticklabel objects>)
df.groupby('A').count()['B'].plot(kind='bar')
plt.xticks()
(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), <a list of 10 Text xticklabel objects>)
乍一看,这看起来像是应该在matplotlib中修复的不一致之处boxplot()
,但我可能只是忽略了基本原理。
作为一种解决方法,请使用matplotlib bar()
,它允许您指定xticks以匹配boxplot的xticks(我没有找到一种使用的方法df.plot(kind='bar')
。
df.boxplot(column='B', by='A')
plt.twinx()
plt.bar(left=plt.xticks()[0], height=df.groupby('A').count()['B'],
align='center', alpha=0.3)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句