Doc2VecおよびPySpark：DeepDist上のGensim Doc2vec

debugcn 投稿 Dev

五月

私はDeepDist（link）モジュールを見て、それをGensimのDoc2VecAPIと組み合わせて、で段落ベクトルをトレーニングすることを考えていますPySpark。リンクは実際に、GensimのWord2Vecモデルに対してそれを行う方法について、次のクリーンな例を提供します。

from deepdist import DeepDist
from gensim.models.word2vec import Word2Vec
from pyspark import SparkContext

sc = SparkContext()
corpus = sc.textFile('enwiki').map(lambda s: s.split())

def gradient(model, sentences):  # executes on workers
    syn0, syn1 = model.syn0.copy(), model.syn1.copy()   # previous weights
    model.train(sentences)
    return {'syn0': model.syn0 - syn0, 'syn1': model.syn1 - syn1}

def descent(model, update):      # executes on master
    model.syn0 += update['syn0']
    model.syn1 += update['syn1']

with DeepDist(Word2Vec(corpus.collect()) as dd:
    dd.train(corpus, gradient, descent)
    print dd.model.most_similar(positive=['woman', 'king'], negative=['man'])

私の理解でDeepDistは、最急降下法の作業をバッチでワーカーに分散し、それらを再結合してマスターで更新しています。に置き換えるWord2VecとDoc2Vec、単語ベクトルでトレーニングされているドキュメントベクトルがあるはずです。

そこで、gensim.models.doc2vec（link）のソースコードを調べました。Doc2Vecモデルインスタンスには、次のフィールドがあります。

model.syn0
model.syn0_lockf
model.docvecs.doctag_syn0
model.docvecs.doctag_syn0_lockf

gensim.models.word2vec（link）のソースコードと比較すると、Doc2Vecモデルに次のフィールドがありませんでした。

model.syn1
model.syn1neg

lockfトレーニングが終わった後、新しいデータポイントが入ってくるときに使用されるように見えるので、ベクトルには触れないと思います。したがって、私のコードは次のようになります。

from deepdist import DeepDist
from gensim.models.doc2vec import Doc2Vec, LabeledSentence
from pyspark import SparkContext

sc = SparkContext()

# assume my dataset is in format 10-char-id followed by doc content
# 1 line per doc
corpus = sc.textFile('data_set').map(
    lambda s: LabeledSentence(words=s[10:].split(),labels=s[:10])
)

def gradient(model, sentence):  # executes on workers
    syn0, doctag_syn0 = model.syn0.copy(), model.docvecs.doctag_syn0.copy()   # previous weights
    model.train(sentence)
    return {'syn0': model.syn0 - syn0, 'doctag_syn0': model.docvecs.doctag_syn0 - doctag_syn0}

def descent(model, update):      # executes on master
    model.syn0 += update['syn0']
    model.docvecs.doctag_syn0 += update['doctag_syn0']

with DeepDist(Doc2Vec(corpus.collect()) as dd:
    dd.train(corpus, gradient, descent)
    print dd.model.most_similar(positive=['woman', 'king'], negative=['man'])

ここで重要なものが欠けていますか？例えば：

気にする必要がありmodel.syn1ますか？結局、どういう意味ですか？
model.*_lockfトレーニング後のロックされた行列は正しいですか？
lambda s: LabeledSentence(words=s[10:].split(),labels=s[:10]各ドキュメントが1行にあり、接頭辞が0で埋められた10桁のIDであると仮定して、データセットの解析に使用しても問題ありませんか？

任意の提案/貢献は非常に高く評価されています。結果を要約するブログ投稿を作成し、ここで貢献者に言及します。これは、現在解決していることを解決するために多くの開発時間を費やすことなく、他の人がスケーリングされた分散システムでDoc2Vecモデルをトレーニングするのに役立つ可能性があります。

ありがとう

2018年6月13日更新

これを実装できなかったので、お詫びします。しかし、今日はより良いオプションがありDeepDist、しばらくの間維持されていません。以下のコメントをお読みください。

現時点で私のアイデアを試すことを主張する場合は、自己責任で進めていることを忘れないでください。また、DeepDistそれでも機能することがわかっている場合は、コメントで報告してください。それは他の読者を助けるでしょう。

デニス・ジャヘルディン

この質問が未解決のまま表示されないようにするために、質問者が状況を解決した方法は次のとおりです。

手遅れになるまで、これを実装することはできませんでした。DeepDistは、バックエンドでFlaskアプリを使用して、SparkWebインターフェイスと対話します。それはもう維持されていないので、Sparkのアップデートはおそらくすでにそれを壊しました。SparkでDoc2Vecトレーニングを探している場合は、Deeplearning4J（deeplearning4j.org/doc2vec#）にアクセスしてください。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-29

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Doc2VecおよびPySpark：DeepDist上のGensim Doc2vec

Doc2VecおよびPySpark：DeepDist上のGensim Doc2vec

Doc2vec MemoryError

Gensim Doc2vec結果の改善

doc2vecの精度の評価

Doc2Vecとの類似性

gensim doc2vec "intersect_word2vec_format"コマンド

alphaおよびmin_alphaのdoc2vecのデフォルト値

How does Pyspark Calculate Doc2Vec from word2vec word embeddings?

gensim Doc2Vec：txtファイルからTaggedDocumentsへの取得

doc2vec: measurement of performance and 'workers' parameter

Default values of doc2vec for alpha and min_alpha

How to use doc2vec model in production?

How to measure the accuracy of a Doc2vec model?

負のサンプリングを使用したDoc2vecおよびword2vec

Gensim doc2vec most_similar equivalent to get full documents

Is there a way to save a Gensim doc2vec model as plain text (.txt)?

Finding the distance between 'Doctag' and 'infer_vector' with Gensim Doc2Vec?

best training methods for binary text classification using doc2vec gensim

Doc2vecモデルのセマンティックおよび構文パフォーマンス

doc2vecとのドキュメントの類似性

Doc2VecのパイプラインとGridSearch

TensorflowでDoc2Vecのベクターを使用する方法

Doc2vecモデルの精度を測定する方法は？

gensimライブラリを使用したdoc2vecによる不正確な類似性の結果

Gensim doc2vecで効率的なクエリを実行する方法は？

doc2vec-Pythonでのdoc2vecトレーニングとinfer_vector（）の入力形式

gensim word2vecまたはdoc2vecを使用してvocaburayを2回ビルドできますか？

Doc2Vecと分類-非常に悪い結果

doc2vecに最大語彙頻度を入れる方法

Doc2Vecを使用した感情分類