データフレームの行で一意のIDを見つける

debugcn 投稿 Dev

edvin.s

入力-5万行を超えるデータフレーム。

期待される結果：複数の列で一意のIDを検索します。

データフレームがあります：

id par1 par2 par3
1  a    1    AA
2  b    2    AB
3  c    3    AC
4  a    4    AD
5  d    3    AE
6  e    5    AD
7  d    1    AF

したがって、ロジックは、いずれかの行が共通のパラメーターを共有する場合、つまり同じ一意のIDである場合、結果は次のようになります。反復によって作成されます。最初にpar1によって作成されます。

id par1 par2 par3  uniq_id
1  a    1    AA    1
2  b    2    AB    2
3  c    3    AC    3
4  a    4    AD    1
5  d    3    AE    4   
6  e    5    AD    5 
7  d    1    AF    4

次にpar2によって：

id par1 par2 par3  uniq_id
1  a    1    AA    1
2  b    2    AB    2
3  c    3    AC    3
4  a    4    AD    1
5  d    3    AE    3   
6  e    5    AD    5 
7  d    1    AF    1

次にpar3で：

id par1 par2 par3  uniq_id
1  a    1    AA    1
2  b    2    AB    2
3  c    3    AC    3
4  a    4    AD    1
5  d    3    AE    3   
6  e    5    AD    1 
7  d    1    AF    1

次に、誤解を招く可能性があるかどうかを確認する必要があります。— id = 7 uniq_id = 1 id = 7 par1 id = 5 id = 3`も変更されるため、feid=5とid=3getを取得する必要があります。uniq_id = 1isandsharewith, and because of that

私が何を説明しようとしているのかが明確であることを願っています。現時点では、私が作成した唯一の実用的なソリューションです。multiple forサイクルを作成し、値を手動で比較しますが、多くの観測があるため、実行に永遠にかかる可能性があります。

ジェズリール

factorize最初に使用し、次に：で使用Series.mapしDataFrame.drop_duplicatesます。

df['uniq_id'] = pd.factorize(df['par1'])[0] + 1
df['uniq_id'] = df['par2'].map(df.drop_duplicates('par2').set_index('par2')['uniq_id'])
df['uniq_id'] = df['par3'].map(df.drop_duplicates('par3').set_index('par3')['uniq_id'])
print (df)
   id par1  par2 par3  uniq_id
0   1    a     1   AA        1
1   2    b     2   AB        2
2   3    c     3   AC        3
3   4    a     4   AD        1
4   5    d     3   AE        3
5   6    e     5   AD        1
6   7    d     1   AF        1

可能であれば、より多くの列が可能です。ループを作成します。

df['uniq_id'] = pd.factorize(df['par1'])[0] + 1

for col in ['par2','par3']:
    df['uniq_id'] = df[col].map(df.drop_duplicates(col).set_index(col)['uniq_id'])

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-12

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

データフレームの行で一意のIDを見つける

データフレームの行で一意のIDを見つける

データフレームのすべての列の一意の値を見つける

データフレームから列の一意の組み合わせを見つける

非一意のIDと列の値を持つデータフレームを一意のIDごとに1つの行に変換する

データファイルで一意の値を見つける

データフレームを行バインドし、一意のIDを増加させ続ける

1つのホットエンコードされたデータフレームで一意の組み合わせを見つける方法は？

2つの値の間で一意のデータを見つける

カテゴリデータフレーム内で一意のクラス値を見つけるためのエラー

データ属性の一意の数を見つける方法

R：データフレームから変数を分割し、一意の変数を見つけます

pandasデータフレームで一意の値を見つけて照合する効率的で高速な実装

データフレーム間でほぼ同一の行を見つける

Rのパネルデータフレームから一意のIDを持つ行を削除するにはどうすればよいですか？

データフレーム内の一意のIDで最初と最後の行の値を取得します

別のデータフレームから一意のIDを取得する

一意のIDのデータフレームを取得する方法

NaNを除くすべての一意の値を含むパンダデータフレームの列名を見つける方法は？

データフレームの行をマージして、Rの一意のIDごとに1つの行を作成する方法

2つのデータフレームの2つの列で一意の要素を検索する

同じデータフレームの別の列に一意の値を含む列値を見つける方法は？

一意のIDを持つデータフレーム全体の累積積を計算する

データフレームのリストで一意の行を返す

pandasデータフレームのIDでグループ化されたすべての列の一意の値ごとに最小値を見つける方法

Pythonパンダデータフレーム：別の列の一意の値ごとに最大値を見つける

rの2つのデータフレーム間で一致する観測値に同一の一意のIDを割り当てる方法は？

2つのデータフレーム間でランダムだが一意の値を割り当てる

2つの列から一意のデータを見つける

foreachと.containsを使用して2つの辞書を比較し、一意のデータと一意でないデータを見つける最速の方法

データフレームを使用してPythonで一意のサービスID番号を生成する方法