ドキュメントのクラスターが与えられた場合、コーパスとクラスター間の類似性を計算します

debugcn 投稿 Dev

Qiwei Peng

コーパス内の各ドキュメントとクラスターの間の距離を計算することにより、類似性ランキングの仕事をしています。クラスターは、ドキュメントのリストとしても提供されます。私が困っているのは、類似性を計算できるように、クラスターの重心を計算する適切な方法を思い付くことができないということです。クラスターのtfidf行列の平均値を使用しようとしましたが、結果は良くありませんでした。

例：私のクラスターは次のとおりです。

['Line a baking pan with a sheet of parchment paper.',
 'Line the cake pan with parchment paper.',
 'Line the bottom with parchment paper.',
 'Line a baking pan with parchment paper.'
]

そして私のコーパスには次の3つのドキュメントが含まれています。

['Add vinegar and sugar.',
 'Remove pan from heat and let stand 5 minutes.',
 'Line the pan with parchment paper.'
]

すべてのドキュメントとクラスター間の類似性を計算したいのですが、次のような結果が得られる可能性があります。

[0.1, 0.1, 0.8]

何か提案はありますか？クラスターとコーパスの両方のドキュメントをtfidf行列として表現しようとしましたが、2つの行列間の類似性を計算して目的の結果を出すのは難しいようです。LSIを試しましたが、クラスターを表す重心を見つける必要があるのは、クラスタードキュメントではなくランク付けしたいコーパスです。

KRKirov

from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

cluster = ['Line a baking pan with a sheet of parchment paper.',
            'Line the cake pan with parchment paper.',
            'Line the bottom with parchment paper.',
            'Line a baking pan with parchment paper.']

corpus = ['Add vinegar and sugar.',
          'Remove pan from heat and let stand 5 minutes.',
          'Line the pan with parchment paper.']

# Train tfidf on cluster
tfidf = TfidfVectorizer()
tfidf_cluster = tfidf.fit_transform(cluster)

# Tranform the corpus using the trained tfidf
tfidf_corpus = tfidf.transform(corpus)

# Cosine similarity
cos_similarity = np.dot(tfidf_corpus, tfidf_cluster.T).A
avg_similarity = np.mean(cos_similarity, axis=1)

cos_similarity
Out[271]: 
array([[0.        , 0.        , 0.        , 0.        ],
       [0.31452723, 0.36145869, 0.        , 0.43855558],
       [0.50673521, 0.8242027 , 0.7139548 , 0.70655744]])

avg_similarity
Out[272]: array([0.        , 0.27863537, 0.68786254])

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-1

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

ドキュメントのクラスターが与えられた場合、コーパスとクラスター間の類似性を計算します

ドキュメントのクラスターが与えられた場合、コーパスとクラスター間の類似性を計算します

クラスのセットが与えられた場合、メソッドパラメーターが一致するクラスを呼び出します

エンドポイントが非常に類似している場合のパスパラメータとクエリパラメータ

型以外のテンプレートパラメータを持つクラスが与えられた場合、引数の値の任意のペアについて、クラスが相互にフレンドになる可能性はありますか？

それらをクラスター化するための完全グラフ上のMST（コサイン類似性の場合）

この流動性スマートコントラクトコードをテストしようとしていますが、エラーが表示された場合。流動性は、tezosのスマートコントラクト言語であるocamlに似ています。

クラス変数がc＃のコンストラクターによって受信された仮パラメーターと同じである場合、誰かがより良い命名スキームを提案できますか？

別のクラスのデータメンバーとしてオブジェクトが作成されている場合、パラメーター化されたコンストラクターに値を渡す方法は？

Python 3：子コンストラクターに親コンストラクターよりも多くの引数がある場合、継承されたメソッドから新しい子クラスインスタンスを返す

Redux-Observable-現在のパラメーターと同じパラメーターがある場合は次のリクエストをキャンセルしますが、パラメーターが異なる場合は実行します

分析の説明：タスクの実行に費やされた合計時間。ドキュメントエラーまたは私のエラー？

具象クラスではなくインターフェースに依存することで、具象クラスに変更が加えられた場合、Javaでのコンパイル時間が短縮されますか？

ブールパラメーターが与えられた場合、コントローラーで従業員のリストを返す方法fx api / employees？hasOvertime = true

スーパークラスからのものを指定した場合でも、コンストラクターでオーバーライド可能なメソッドを呼び出しますか？

TFIDFベクトルでコサイン類似度マトリックスを計算しようとしたときのメモリエラー

キーワード「this」がコンストラクター内で使用される場合のコピーコンストラクターを定義する

コンストラクターが実装されたインターフェースからのものとは異なるパラメータータイプを受け取った場合、Typescriptコンパイラーからのエラーはありません

各ステートメントがコレクションにクラッシュしたデータベースのプロパティ値の取得が変更されました列挙操作が実行されない場合があります

ヒストグラム間の類似性のパーセンテージを計算する方法（特徴ベクトル）

C ++ "<デフォルトのコンストラクター>からパラメーター化されたコンストラクターに変換するのに適したコンストラクターが存在しません

ボタンがストーリーボードから作成された場合、サブクラスのUIButtonタイプを変更します

同一で類似しているが異なるメソッドを共有する2つのクラスのJava設計パターン

ASPX-パラメーター化されたコンストラクターをスキップして、パラメーターなしのコンストラクターが呼び出されるのはなぜですか？

クラスのコピーコンストラクタが削除されたときに、クラスの配列メンバーを初期化します

「この Intel 汎用グラフィック ドライバーをインストールすると、コンピューター メーカー (OEM) からカスタマイズされたドライバーが上書きされます」

クラス内のstd :: mapまたはstd :: vectorに類似したコンストラクター

コンストラクターにつまようじのパラメーターがある場合にファクトリを介して注入する

「ソースコード」からのスクリプトの場合、パラメータは置き換えられません

ドライバクラスパスまたはエグゼキュータクラスパスが設定されていない場合、-py-filesを指定したspark-submitコマンドは失敗します

ベースと派生の両方が派生型パラメーターでテンプレート化されている場合にベースコンストラクターを呼び出すときのコンパイラエラー

「この Intel 汎用グラフィックドライバーをインストールすると、コンピューターメーカー (OEM) からカスタマイズされたドライバーが上書きされます」