キーでgroupbyオブジェクトの対応するgroupbyデータフレームにアクセスするにはどうすればよいですか?
次のgroupbyを使用します。
rand = np.random.RandomState(1)
df = pd.DataFrame({'A': ['foo', 'bar'] * 3,
'B': rand.randn(6),
'C': rand.randint(0, 20, 6)})
gb = df.groupby(['A'])
反復してキーとグループを取得できます。
In [11]: for k, gp in gb:
print 'key=' + str(k)
print gp
key=bar
A B C
1 bar -0.611756 18
3 bar -1.072969 10
5 bar -2.301539 18
key=foo
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
キーでグループにアクセスできるようにしたい:
In [12]: gb['foo']
Out[12]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
しかし、これを試してみるgb[('foo',)]
と、この奇妙なpandas.core.groupby.DataFrameGroupBy
オブジェクトが表示されます。これには、必要なDataFrameに対応するメソッドがないようです。
私が考えることができる最高のものは:
In [13]: def gb_df_key(gb, key, orig_df):
ix = gb.indices[key]
return orig_df.ix[ix]
gb_df_key(gb, 'foo', df)
Out[13]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
しかし、これはパンダが通常これらのことにどれほど素晴らしいかを考えると、ちょっと厄介です。
これを行う組み込みの方法は何ですか?
次のget_group
方法を使用できます。
In [21]: gb.get_group('foo')
Out[21]:
A B C
0 foo 1.624345 5
2 foo -0.528172 11
4 foo 0.865408 14
注:これは、すべてのグループのすべてのサブデータフレームの中間ディクショナリ/コピーを作成する必要がないため、を使用して単純なディクショナリを作成するよりもはるかにメモリ効率が高くなりますdict(iter(gb))
。これは、groupbyオブジェクトですでに使用可能なデータ構造を使用しているためです。
groupbyスライスを使用して別の列を選択できます。
In [22]: gb[["A", "B"]].get_group("foo")
Out[22]:
A B
0 foo 1.624345
2 foo -0.528172
4 foo 0.865408
In [23]: gb["C"].get_group("foo")
Out[23]:
0 5
2 11
4 14
Name: C, dtype: int64
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加