1つの列を、ループのないカテゴリ値を含む複数の列と比較します

debugcn 投稿 Dev

jazz090

numpyデータセットのいくつかの列を、カテゴリデータを含む別の列のセットと比較しようとしています。

    Gender | Grade | Score 1 | Score 2 | Score 3
    M      | A     | 12      | 8       | 0
    M      | A     | 8       | 11      | 4
    M      | B     | 10      | 8       | 9
    F      | B     | 12      | 2       | 2
    F      | B     | 11      | 8       | 1
    F      | B     | 1       | 4       | 2

私がする必要があるのは、各スコア列を性別とグレードと比較することです。次に、各カテゴリの平均スコアを計算します。したがって、たとえば、性別Mと性別Fの平均、グレードAの平均とグレードBの平均を持つスコア1の値の平均。コードでカテゴリ（または性別とグレードの列名）を実際の値として明示的に定義することはできません。データセットには、カテゴリ値の変数分布があり、カテゴリデータを含む追加の列がいくつかあります。np.unique()完全なリストを提供するすべてのカテゴリ値を計算できます。ただし、ufuncs、ブロードキャスト、マスキングなどを使用してマトリックスを作成し、これらの各列をループのないカテゴリ値と比較できるようにする方法については、行き詰まっています。

出力は、理想的には、1つの列で使用可能なすべてのカテゴリと、他の列からの関連する平均を含む行列である必要があります。

            A           B           M           F
Score1      mean(S1,A)  mean(S1,B)  mean(S1, M) mean(S1, F)
Score2      mean(S2,A)  etc         etc         etc
Score3      mean(S3,A)  etc         etc         etc

バーラス

ピボットと連結ie

one = df.pivot_table(columns=['Gender'],aggfunc='mean')
two = df.pivot_table(columns=['Grade'],aggfunc='mean')
main  = pd.concat([one,two],1)

                  F            M         A        B     
Score 1     8.000000    10.000000     10.0      8.5
Score 2     4.666667     9.000000      9.5      5.5
Score 3     1.666667     4.333333      2.0      3.5

1行のソリューションが必要な場合は、次のようにします。

main = pd.concat([df.pivot_table(columns=i) for i in ['Grade','Gender']],1) # By default `aggfunc` is mean

スコアのみをインデックスにし、残りを列にしたい場合は、次のようにします。

cols = df.columns[~df.columns.str.contains('Score')]
# Index(['Gender', 'Grade'], dtype='object')
ndf = pd.concat([df.pivot_table(columns=i) for i in cols],1)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-31

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

1つの列を、ループのないカテゴリ値を含む複数の列と比較します

1つの列を、ループのないカテゴリ値を含む複数の列と比較します

Excel-見出しと値を含むテキストとして複数のデータ列を1つのセルにキャプチャします

パンダ：異なる列のカテゴリに従って、複数の列の値をグループ化します。そして、そのカテゴリのグループ化に基づいて平均を計算します

単一のカテゴリの値をRのすべて（カテゴリを含む）と比較します

列の値に基づいて2つの列をカテゴリにグループ化します

重複のすべてのサブカテゴリを新しい配列の1つのカテゴリにグループ化する方法

dplyrを使用して、複数行の値を持つデータフレームを列カテゴリごとに1行に再構築します

Matlab One HotEncoding-カテゴリを含む列を論理のいくつかの列に変換します

タイルごとに複数の凡例カテゴリ（塗りつぶし）を含むgeom_tileプロットを作成します

グループごとまたはカテゴリ内（グループごと）の列の値を、Rの同じデータフレーム内の他の列（複数の値を持つ）と照合する方法

Rのグループごとに、ある列の値を別の列の複数の値と比較します

python pandas：複数の列でグループ化し、1つの列の値をカウントします

関数を計算し、1つの列をテーブル内の複数の列と比較する

pandas-groupbyにnull以外の値を含む列が少なくとも1つあるグループをフィルタリングします

複数のPandasDF列をループなしでカテゴリカルに変更する方法

2つの列のカテゴリデータを比較します

複数の配列を含む配列の値ごとに「For」ループが実行されない

R：他の2つの列の基準に基づいて、複数のカテゴリ（レベル）を持つ新しい列を作成します

ntextのような列データ型を含む結合クエリの1つのテーブルから個別の値を取得します

1つのVALUE列と2つのカウンター（X、Y）のみを含むテーブルから条件付きの複数の列を選択します

カテゴリ別に区別してから、カテゴリごとにすべての明確な値を1つの列に結合します

複数のカテゴリ列の値を同時に確認します

同じテーブルの2つの列間で複数の値を比較することに基づいてデータを選択します

2つのカテゴリ列と1つのPythonの値に基づいてデータフレームを集計します

SQLはcaseステートメント内の1つの列で複数の数値を比較します

2つのテーブルを含むSQLクエリで、特定の列値および複数の列値についてテーブルの1つを検索する必要がある

長いフラットテーブル（各列に年とカテゴリの両方が含まれる）を、カテゴリと年を比較するテーブルに変換します

Rの他の2つの列に基づいて、新しいカテゴリの「比較検出」列を作成します（9つのオプションの回答）

Rの他の2つの列に基づいて、新しいカテゴリの「比較検出」列を作成します（9つのオプションの回答）

複数の複製とカテゴリを持つサンプルの勾配を計算します