将索引值移动到pandas数据框中的列名称中

debugcn 发表于 Dev

丹尼尔·科特

我正在尝试重塑多索引数据框，以便将索引第二级的值合并到新数据框中的列名称中。在下面的数据框中，我想将A和B从“源”移到各列中，以便有s1_A，s1_B，s2_A，...，s3_B。

我尝试过显式创建新数据框的结构，并使用嵌套的for循环填充它以重新分配值，但是这样做的速度非常慢。我已经尝试了pandas API的许多功能，但是运气不佳。任何帮助将非常感激。

midx = pd.MultiIndex.from_product( [[1,2,3], ['A','B']], names=["sample","source"])
df = pd.DataFrame( index=midx, columns=['s1', 's2', 's3'], data=np.ndarray(shape=(6,3)) )

>>> df
                s1   s2   s3
sample source               
1      A       1.2  3.4  5.6
       B       1.2  3.4  5.6
2      A       1.2  3.4  5.6
       B       1.2  3.4  5.6
3      A       1.2  3.4  5.6
       B       1.2  3.4  5.6


# Want to build a new data frame thatlooks like this:
>>> df_new
       s1_A   s1_B   s2_A   s2_B   s3_A   s3_B
sample                
1      1.2    1.2    3.4    3.4    5.6    5.6
2      1.2    1.2    3.4    3.4    5.6    5.6
3      1.2    1.2    3.4    3.4    5.6    5.6

这是我目前的操作方式。它非常慢，而且我知道必须有一种更惯用的方法来处理熊猫，但是我对它的API还是陌生的：

substances = df.columns.values
sources = ['A','B']
subst_and_src = sorted([ subst + "_" + src for src in sources for subst in substances ])

df_new = pd.DataFrame(index=df.index.unique(0), columns=subst_and_src)

# Runs forever
for (sample, source) in df.index:
    for subst in df.columns:
        df_new[sample, subst + "_" + source] = df.loc[(sample,source), subst]

安德烈·凯斯利（Andrej Kesely）

df = df.unstack(level=1)
df.columns = ['_'.join(col).strip() for col in df.columns.values]
print(df)

印刷品：

                 s1_A           s1_B  s2_A  s2_B           s3_A           s3_B
sample                                                                        
1       4.665045e-310  6.904071e-310   0.0   0.0  6.903913e-310  2.121996e-314
2       6.904071e-310   0.000000e+00   0.0   0.0  3.458460e-323   0.000000e+00
3        0.000000e+00   0.000000e+00   0.0   0.0   0.000000e+00   0.000000e+00

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。