データフレームの行間の類似性を計算します（共通のカウント値）

debugcn 投稿 Dev

mathilde

データフレームの行間の類似度を計算したい。私は何人かの人々についての情報でいくつかのコラムを持っています。1列は1人です。それはそのように見えます：

 print(df)
        id  name      firstname  email                town    age
    0    1  martin    pierre     [email protected]      Paris   na
    1    2  dupond    sarah      [email protected]    London  32
    2    3  dupond    sarah      [email protected]    Berlin  32
    3    4  dupond    john       na                   Madrid  45
    4    5  smith     na         [email protected]  Paris   28

少なくとも3つの列が完了している場合は、各行について、他の行と共通の値の数を列の数で割った値をカウントしたいと思います。たとえば、インデックス1の行とインデックス2の行の間には、4つの共通の変数があります。したがって、私の類似性は4/5（idはカウントされません）=類似性の80％になります。その後、類似度が0.6を超える行を見つけて新しいデータフレームを作成するため、結果は類似度マトリックスである必要があります。それはそのようなものかもしれません：

 print(similarity)
        0    1    2    3    4
    0   1    0    0    0    0.2
    1   0.2  1    0.8  0.2  0
    2   0    0.8  1    0.2  0
    3   0    0.2  0.2  1    0
    4   0.2  0    0    0    1

結果が重複しているため、その半分で十分です。

 print(similarity)
        0    1    2    3    4
    0        0    0    0    0.2
    1             0.8  0.2  0
    2                  0.2  0
    3                       0
    4

それを自動化する機能を探していますが見つかりませんでした。そのようなものは存在しますか？読んでくれてありがとう、どんなアドバイスやアイデアも歓迎されます。

マイケル・シュチェスニー

scipy.spatial.distance.pdistカスタム距離機能で使用できます

from scipy.spatial.distance import pdist, squareform
pd.DataFrame(1 - squareform(pdist(df.set_index('id'), lambda u,v: (u != v).mean())))

でる：

     0    1    2    3    4
0  1.0  0.0  0.0  0.0  0.2
1  0.0  1.0  0.8  0.2  0.0
2  0.0  0.8  1.0  0.2  0.0
3  0.0  0.2  0.2  1.0  0.0
4  0.2  0.0  0.0  0.0  1.0

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-1

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

データフレームの行間の類似性を計算します（共通のカウント値）

データフレームの行間の類似性を計算します（共通のカウント値）

データフレームでジャッカードの類似性を計算する

pandasデータフレーム内の類似の文字列値を1年ごとにカウントする

パンダデータフレーム内の類似値の割合を計算する

pysparkのデータフレームのすべての行間のコサイン類似度を計算する

パンダのデータフレームからジャッカードの類似性を計算する方法

毎日のデータフレームの値のカウントまたは合計を取得します

pandasデータフレームの行のサブセットの平均値と最大値を計算します

データフレームから類似した発音の単語の数と名前を計算する

パンダのデータフレームに保存されているSMILE構造をRDKitに直接フィードして、分子のフィンガープリントと類似性を計算することは可能ですか？

2つのデータフレームの共通部分を見つけて、データフレーム内の整数行の平均を計算します

ドキュメントのクラスターが与えられた場合、コーパスとクラスター間の類似性を計算します

パンダは類似のデータフレームを比較し、最小値を取得します

類似性のパーセンテージを計算するか、3つ以上のオブジェクト間の相関を計算します

rを使用して、行のグループがデータフレーム内でどの程度類似しているかを計算する方法

Rのデータフレームで最大値をカウントします

パンダデータフレームの行間の差を計算する

pandas：別の列の値に基づいてすべての行のジャッカードの類似性を計算します

id列の共通値に基づいて、別のデータフレームからデータフレームの行を減算します

2つの類似したdf間のコントラストに従って、新しいデータフレームを作成します

Rの2つの異なるデータフレームからの2つのタイムスタンプ間の行をカウントします

Rの「ロングフォーマット」データフレームで値を計算します

行ごとに2つのデータフレーム間の類似性を見つける

同じデータフレーム内の別の列の値に基づいて、2つの列の値をカウントまたは合計します

2つのデータフレームの行を比較し、類似した列の数を数えます

Python-時間情報（インスタント、間隔）に基づいてアイテム間の類似性を計算します

トランジションのフレームごとにカスタム計算を実行します

Python Pandas：2つのcsv（データフレーム）の行を1つの列に沿って類似した値と比較し、類似した行（列）のコンテンツを返します

その上の行内のデータフレーム内の値の出現をカウントします

パンダ、データフレームの列の単一の値のカウントを取得します