PandasとspaCyを使用して文の埋め込み機能を抽出します

debugcn 投稿 Dev

mrgou

私は現在spaCyを学んでおり、単語と文の埋め込みに関する演習を行っています。文はパンダのDataFrame列に格納されており、これらの文のベクトルに基づいて分類器をトレーニングする必要があります。

次のようなデータフレームがあります。

+---+---------------------------------------------------+
|   |                                          sentence |
+---+---------------------------------------------------+
| 0 | "Whitey on the Moon" is a 1970 spoken word poe... |
+---+---------------------------------------------------+
| 1 | St Anselm's Church is a Roman Catholic church ... |
+---+---------------------------------------------------+
| 2 | Nymphargus grandisonae (common name: giant gla... |
+---+---------------------------------------------------+

次に、これらの文にNLP関数を適用します。

import en_core_web_md
nlp = en_core_web_md.load()
df['tokenized'] = df['sentence'].apply(nlp)

さて、私が正しく理解していれば、df ['tokenized']の各項目には、2D配列の文のベクトルを返す属性があります。

print(type(df['tokenized'][0].vector))
print(df['tokenized'][0].vector.shape)

収量

<class 'numpy.ndarray'>
(300,)

この配列（300行）のコンテンツをdf、ストップワードを無視して、対応する文のデータフレームに列として追加するにはどうすればよいですか？

ありがとう！

mrgou

実際、すべてのベクトルを平均化する単一の値を使用すると、分類モデルで良好な結果が得られます。実際に必要だったのは、1文あたり300列のデータフレームでした（300はspaCy単語埋め込みの標準の長さであるため：

したがって、@ Sergeyのコードを続行するには：

sents = ["'Whitey on the Moon' is a 1970 spoken word"
         , "St Anselm's Church is a Roman Catholic church"
         , "Nymphargus grandisonae (common name: giant)"]

df=pd.DataFrame({"sentence":sents})

df['tokenized'] = df['sentence'].apply(nlp)
df['sent_vectors'] = df['tokenized'].apply(lambda x: x.vector)
vectors = 0['sent_vector'].apply(pd.Series)

これによりvectors、モデルをトレーニングできる機能が含まれます。たとえば、各文に感情が付加されていると仮定します。

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X = vectors
y = df['sentiment']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

clf = LogisticRegression()
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)

私ができなかったことは、DataFrameエントリからストップワードを削除することです（つまり、がであるデータフレームに格納されてTokenいるDoc親オブジェクトから各オブジェクトを削除します。is_stopFalse

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-12

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

PandasとspaCyを使用して文の埋め込み機能を抽出します

PandasとspaCyを使用して文の埋め込み機能を抽出します

埋め込みを動的に追加すると、Instagramの埋め込みが機能しない

埋め込みレイヤーの出力を抽出します

discord.pyを使用して、埋め込みを読み取り、埋め込みの一部を変数として保存する方法はありますか？

glove.6B.100d.txtを使用して、spacyに埋め込み、lex.rankをゼロにします。

<img>タグを使用して埋め込むと、SVGの塗りつぶし遷移が機能しません

埋め込まれたTomcatを使用するWebアプリはIDEでのみ機能します

Tensorflowでのすべての単語埋め込みの平均を取得して、文の埋め込みを取得しますか？

組み込みとして機能するコマンドをbashに埋め込む方法は？

ボタンのJavaScript機能をDTデータテーブルを使用して埋め込みボタンに移動します

iTextSharp（C＃）を使用してPDFから埋め込みXMLを抽出する

Javaを使用してドキュメントから埋め込みファイルを抽出します

CRF（sklearn-crfsuite）モデルトレーニングの機能として単語埋め込みを使用する方法

PythonとBeautifulSoupを使用して、埋め込まれたツイートからテキストを抽出します

GloVeの事前トレーニング済み埋め込みを行列としてRに読み込みます

PDFBoxを使用して単一のPDFページから複数の埋め込み画像を抽出する

.NET-WCFの参照として埋め込みDLLを使用する

ひかりのデータソーススタンドとしてTomcat埋め込みを使用しますか？

PDFの埋め込みにs3署名付きURLを追加しても機能しません

T5を使用した文の埋め込み

BERTからの埋め込みを使用して文の類似性を比較する方法

SpaCyを使用して、ドイツ語の文から主節と副節を抽出します

すべてのアセンブリをまとめて、exeファイルの埋め込みリソースとして使用します

Pandas で GroupBy の形状を変更し、不足している場合は nan を埋め込みます

Androidでitextを使用してPDFに埋め込まれた画像内のテキストを抽出する

discord.pyのみを使用してWebhookに埋め込みを送信する方法

列を埋めるキーを使用して、行ごとに1つのキー/値を使用してdictのdictをCSVに書き込みます

文字列と（埋め込み）数値を使用して文字列をフォーマットします

CodeIgniterとmPDFライブラリを使用して埋め込みPDFファイルを生成します

TwigはURLを解析してYouTube埋め込みのIDを取得します