複数のワーカーのサポートを受けて、gensimでword2vecをバッチトレーニングします

debugcn 投稿 Dev

マーカス

環境

ストリーミングデータWord2Vecを使用gensimしてトレーニングする方法については、いくつかの質問があります。とにかく、これらの質問は、スレッド間で分割する配列がないため、ストリーミングで複数のワーカーを使用できないという問題を扱っていません。

したがって、gensimにそのような機能を提供するジェネレーターを作成したかったのです。私の結果は次のようになります。

from gensim.models import Word2Vec as w2v

#The data is stored in a python-list and unsplitted.
#It's too much data to store it splitted, so I have to do the split while streaming.
data = ['this is document one', 'this is document two', ...]

#Now the generator-class
import threading

class dataGenerator:
    """
    Generator for batch-tokenization.
    """

    def __init__(self, data: list, batch_size:int = 40):
        """Initialize generator and pass data."""

        self.data = data
        self.batch_size = batch_size
        self.lock = threading.Lock()


    def __len__(self):
        """Get total number of batches."""
        return int(np.ceil(len(self.data) / float(self.batch_size)))


    def __iter__(self) -> list([]):
        """
        Iterator-wrapper for generator-functionality (since generators cannot be used directly).
        Allows for data-streaming.
        """
        for idx in range(len(self)):
            yield self[idx]


    def __getitem__(self, idx):

        #Make multithreading thread-safe
        with self.lock:

            # Returns current batch by slicing data.
            return [arr.split(" ") for arr in self.data[idx * self.batch_size : (idx + 1) * self.batch_size]]


#And now do the training
model = w2v(
             sentences=dataGenerator(data),
             size=300,
             window=5,
             min_count=1,
             workers=4
            )

これによりエラーが発生します

TypeError：ハッシュ不可能なタイプ： 'リスト'

dataGenerator(data)分割されたドキュメントを1つだけ生成すれば機能するので、gensimsword2vecはジェネレーターを追加のリストにラップしていると思います。この場合、次の__iter__ようになります。

def __iter__(self) -> list:
    """
    Iterator-wrapper for generator-functionality (since generators cannot be used directly.
    Allows for data-streaming.
    """
    for text in self.data:
        yield text.split(" ")

したがって、私のバッチもラップ[[['this', '...'], ['this', '...']], [[...], [...]]]され、gensimで処理できない（=>リストのリストのリスト）のようなものになります。

私の質問：

複数のワーカーを使用するためにバッチを「ストリーミング」パスすることはできますか？それに応じてコードを変更するにはどうすればよいですか？

マーカス

焦りすぎたようです。上記のストリーミング関数を実行しました。この関数は、バッチではなく1つのドキュメントのみを処理します。

def __iter__(self) -> list:
    """
    Iterator-wrapper for generator-functionality (since generators cannot be used directly.
    Allows for data-streaming.
    """
    for text in self.data:
        yield text.split(" ")

w2v-functionを開始してから、すべてのコアが正しく機能するまで約10分かかりました。

語彙の構築は複数のコアをサポートしていないようであるため、このタスクには1つだけが使用されました。おそらく、コーパスサイズのためにとても時間がかかりました。gensimが語彙を作成した後、すべてのコアがトレーニングに使用されました。

したがって、この問題でも実行している場合は、ある程度の忍耐がすでに役立つかもしれません:)

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-12

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

複数のワーカーのサポートを受けて、gensimでword2vecをバッチトレーニングします

複数のワーカーのサポートを受けて、gensimでword2vecをバッチトレーニングします

非線形性のあるスタックオートエンコーダーを使用してWord2vecをトレーニングできますか？

Gensimを使用してWord2vecモデルをトレーニングする

GensimのWord2Vecは提供されたドキュメントをトレーニングしていません

事前トレーニング済みのgensim Word2vec埋め込みをケラスに埋め込む

H2Oは、h2o word2vecで使用するための事前トレーニング済みのベクターを提供しますか？

Word2Vecで事前トレーニング済みモデルをマージしますか？

Word2Vecはいくつのエポックをトレーニングする必要がありますか？推奨されるトレーニングデータセットは何ですか？

Gensim Word2Vecは、事前にトレーニングされたモデルから単語ベクトルのマイナーセットを選択します

gensim：Googleの事前トレーニング済みword2vecモデルをロードすると、「Doc2Vec」オブジェクトに属性「intersect_word2vec_format」がありません

TensorFlowと並行して複数のミニバッチでGPUをトレーニングする

非常に大きなデータセットでWord2vecをトレーニングする方法は？

Relay.jsは、複数のセッションでの同形のサーバー側レンダリングをサポートしていますか？

トレーニング済みのGloVe / word2vecモデルを使用して、記事からキーワードを抽出するにはどうすればよいですか？

複数のトレーニング方法を使用して、EncogでANNをトレーニングします

新しい語彙でword2vecモデルを段階的にトレーニングする方法

事前トレーニング済みネットワーク（1ブランチ）を使用して、カフェに2つのブランチがあるネットワークのレイヤーの重みを初期化します。

Apacheストームについて、Tridentトポロジの1つのバッチを複数のワーカー並列で処理できますか？

TensorFlowで事前トレーニング済みの単語埋め込み（word2vecまたはGlove）を使用する

tf.dataデータセットを使用して同じバッチで複数のトレーニング操作を実行する方法

ニューラルネットワークへの事前トレーニング済み（Word2Vec）埋め込み

トレーニング後に新しく蓄積された最近のデータのバッチを使用してニューラルネットワークを再トレーニングするための用語は何ですか？

トレーニング中にRASAチャットボットフレームワークでエラーが発生しました：fit（）がキーワード引数 'batch_size'に複数の値を取得しました

別の言語でトレーニングされたWord2vecモデルの精度を測定する方法は？

ワニスはグーグルモバイルテスターのデスクトップサイトをレンダリングしています

Gensim Word2Vec：トレーニングパフォーマンスが低い。

gensimのword2vecのレイヤーサイズ

事前にトレーニングされたword2vecから文の類似性を見つけるためのKeras

OpenOCD + STLINK-V3SETは、デイジーチェーン構成で複数のコントローラーのデバッグをサポートしていますか？

intellijデバッグ：カーソルの前のすべてのブレークポイントを無視してカーソルまで実行します