パンダのデータフレームでグループごとにt検定する方法は？

debugcn 投稿 Dev

レイチェル

私は多くの列を持つ非常に巨大なパンダデータフレームを持っています。データフレームには2つのグループが含まれています。基本的には次のように設定されています。

import pandas as pd
csv = [{"air" : 0.47,"co2" : 0.43 , "Group" : 1}, {"air" : 0.77,"co2" : 0.13 , "Group" : 1}, {"air" : 0.17,"co2" : 0.93 , "Group" : 2} ]
df = pd.DataFrame(csv)

私は上のt検定t検定を実行するairとco2、それによって2つのグループを比較するGroup = 1とGroup = 2。

私は単なる列よりもはるかに多くの列を持っていますair co2-したがって、データフレーム内のすべての列で機能するプロシージャを見つけたいと思います。オーダーとscipy.stats.ttest_rel一緒に使えそうです。それはどのように機能しますか？よろしくお願いします/ Rpd.groupbyapply

エラー

pandasdataframe.whereメソッドを使用します。

group1_air = df.where(df.Group== 1).dropna()['air']
group2_air = df.where(df.Group== 2).dropna()['air']

このコードビットは、group2_airのgroup列が1であるair列のすべての値とgroupが2であるairのすべての値をgroup1_airに返します。このメソッドは、指定された条件が満たされないすべての行に対してNANを返すdrop.na()ため、が必要です.where。したがって、を使用すると、groupが2のすべての行がNAN値で返されますdf.where(df.Group== 1)。

使用する必要があるかどうか、scipy.stats.ttest_relまたはscipy.stats.ttest_indグループによって異なります。サンプルが独立したグループからのものであるttest_ind場合は、サンプルが関連グループからのものである場合に使用する必要がありますttest_rel。

したがって、サンプルが互いに独立している場合、必要なコードの最後の部分はです。

scipy.stats.ttest_ind(group1_air,group2_air)

それ以外の場合は使用する必要があります

scipy.stats.ttest_rel(group1_air,group2_air)

co2もテストしたい場合は、与えられた例でco2の空気を変更するだけです。

編集：

これは、グループ列を除くデータフレーム内のすべての列に対してttestを実行するために実行する必要があるコードの大まかなスケッチです。column_listニーズに完全に準拠させるために、を少し改ざんする必要がある場合があります（たとえば、すべての列をループしたくない場合があります）。

# get a list of all columns in the dataframe without the Group column
column_list = [x for x in df.columns if x != 'Group']
# create an empty dictionary
t_test_results = {}
# loop over column_list and execute code explained above
for column in column_list:
    group1 = df.where(df.Group== 1).dropna()[column]
    group2 = df.where(df.Group== 2).dropna()[column]
    # add the output to the dictionary 
    t_test_results[column] = scipy.stats.ttest_ind(group1,group2)
results_df = pd.DataFrame.from_dict(t_test_results,orient='Index')
results_df.columns = ['statistic','pvalue']

このコードの最後に、ループするすべての列に対するttestの出力を含むデータフレームがあります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-2

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

パンダのデータフレームでグループごとにt検定する方法は？

パンダのデータフレームでグループごとにt検定する方法は？

2つのパンダデータフレームから行ごとにT検定を計算する方法

パンダ：データフレーム内のリストの列をパンダ（forループではない）と行ごとに比較する方法は？

パンダはn個の最大値でデータフレームをフィルタリングする年ごとにグループ化

パンダのデータフレームをグループごとにシャッフルする

パンダのデータフレームを時間ごとにグループ化する際の問題

グループごとに計算を行ってパンダのデータフレームを更新するにはどうすればよいですか？

パンダのデータフレームで列ごとにdtypesを設定する方法

パンダのデータフレームで文字ごとに切り取ってグループ化する方法

パンダのデータフレームを列ごとにクリップする方法は？

パンダのデータフレーム内の値のグループごとにn個の最大値の合計を見つける方法は？

パンダのデータフレームを行ごとに検索して変数を抽出する方法

1秒未満の値でデータフレームごとにグループ化-パンダ

パンダのデータフレームをグループごとに成長させる

列のグループをパンダデータフレームにスタックする方法は？

キーでパンダのグループ化データフレームにアクセスする方法

パンダはグループごとにデータフレームからグラフを描画する方法を示していますが、グループ番号は不明です

Python：パンダのデータフレームを特定の時間枠でグループ化する方法は？

Python：パンダのデータフレームを特定の時間枠でグループ化する方法は？

パンダのデータフレームの値を行ごとに合計する方法は？

オペレーションごとにいくつかのグループから新しいデータフレームを作成するパンダ

パンダのデータフレームの各グループとテーブルを結合する方法

グループごとに2つのデータフレームを結合する方法は？

会計年度ごとにグループ化するためにパンダデータフレームでgroupbyを使用する

会計年度ごとにグループ化するためにパンダデータフレームでgroupbyを使用する

パンダのデータフレームをグループ化し、条件付きで検証する

グループごとにデータフレーム内のすべての変数をパディング

グループごとに上位と下位のN値を表示するパンダの新しいデータフレーム

定義された時間間隔でパンダのデータフレームをグループ化する方法は？

行でグループ化するときにパンダデータフレームの辞書をマージする方法