PandasとspaCyを使用して文の埋め込み機能を抽出します

mrgou

私は現在spaCyを学んでおり、単語と文の埋め込みに関する演習を行っています。文はパンダのDataFrame列に格納されており、これらの文のベクトルに基づいて分類器をトレーニングする必要があります。

次のようなデータフレームがあります。

+---+---------------------------------------------------+
|   |                                          sentence |
+---+---------------------------------------------------+
| 0 | "Whitey on the Moon" is a 1970 spoken word poe... |
+---+---------------------------------------------------+
| 1 | St Anselm's Church is a Roman Catholic church ... |
+---+---------------------------------------------------+
| 2 | Nymphargus grandisonae (common name: giant gla... |
+---+---------------------------------------------------+

次に、これらの文にNLP関数を適用します。

import en_core_web_md
nlp = en_core_web_md.load()
df['tokenized'] = df['sentence'].apply(nlp)

さて、私が正しく理解していれば、df ['tokenized']の各項目には、2D配列の文のベクトルを返す属性があります

print(type(df['tokenized'][0].vector))
print(df['tokenized'][0].vector.shape)

収量

<class 'numpy.ndarray'>
(300,)

この配列(300行)のコンテンツをdfストップワードを無視して、対応する文のデータフレームに列として追加するにはどうすればよいですか?

ありがとう!

mrgou

実際、すべてのベクトルを平均化する単一の値を使用すると、分類モデルで良好な結果が得られます。実際に必要だったのは、1文あたり300列のデータフレームでした(300はspaCy単語埋め込みの標準の長さであるため:

したがって、@ Sergeyのコードを続行するには:

sents = ["'Whitey on the Moon' is a 1970 spoken word"
         , "St Anselm's Church is a Roman Catholic church"
         , "Nymphargus grandisonae (common name: giant)"]

df=pd.DataFrame({"sentence":sents})

df['tokenized'] = df['sentence'].apply(nlp)
df['sent_vectors'] = df['tokenized'].apply(lambda x: x.vector)
vectors = 0['sent_vector'].apply(pd.Series)

これによりvectors、モデルをトレーニングできる機能が含まれます。たとえば、各文に感情が付加されていると仮定します。

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X = vectors
y = df['sentiment']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

clf = LogisticRegression()
clf.fit(X_train,y_train)
y_pred = clf.predict(X_test)

私ができなかったことは、DataFrameエントリからストップワードを削除することです(つまりであるデータフレームに格納されてTokenいるDoc親オブジェクトからオブジェクトを削除しますis_stopFalse

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

埋め込みを動的に追加すると、Instagramの埋め込みが機能しない

分類Dev

埋め込みレイヤーの出力を抽出します

分類Dev

discord.pyを使用して、埋め込みを読み取り、埋め込みの一部を変数として保存する方法はありますか?

分類Dev

glove.6B.100d.txtを使用して、spacyに埋め込み、lex.rankをゼロにします。

分類Dev

<img>タグを使用して埋め込むと、SVGの塗りつぶし遷移が機能しません

分類Dev

埋め込まれたTomcatを使用するWebアプリはIDEでのみ機能します

分類Dev

Tensorflowでのすべての単語埋め込みの平均を取得して、文の埋め込みを取得しますか?

分類Dev

組み込みとして機能するコマンドをbashに埋め込む方法は?

分類Dev

ボタンのJavaScript機能をDTデータテーブルを使用して埋め込みボタンに移動します

分類Dev

iTextSharp(C#)を使用してPDFから埋め込みXMLを抽出する

分類Dev

Javaを使用してドキュメントから埋め込みファイルを抽出します

分類Dev

CRF(sklearn-crfsuite)モデルトレーニングの機能として単語埋め込みを使用する方法

分類Dev

PythonとBeautifulSoupを使用して、埋め込まれたツイートからテキストを抽出します

分類Dev

GloVeの事前トレーニング済み埋め込みを行列としてRに読み込みます

分類Dev

PDFBoxを使用して単一のPDFページから複数の埋め込み画像を抽出する

分類Dev

.NET-WCFの参照として埋め込みDLLを使用する

分類Dev

ひかりのデータソーススタンドとしてTomcat埋め込みを使用しますか?

分類Dev

PDFの埋め込みにs3署名付きURLを追加しても機能しません

分類Dev

T5を使用した文の埋め込み

分類Dev

BERTからの埋め込みを使用して文の類似性を比較する方法

分類Dev

SpaCyを使用して、ドイツ語の文から主節と副節を抽出します

分類Dev

すべてのアセンブリをまとめて、exeファイルの埋め込みリソースとして使用します

分類Dev

Pandas で GroupBy の形状を変更し、不足している場合は nan を埋め込みます

分類Dev

Androidでitextを使用してPDFに埋め込まれた画像内のテキストを抽出する

分類Dev

discord.pyのみを使用してWebhookに埋め込みを送信する方法

分類Dev

列を埋めるキーを使用して、行ごとに1つのキー/値を使用してdictのdictをCSVに書き込みます

分類Dev

文字列と(埋め込み)数値を使用して文字列をフォーマットします

分類Dev

CodeIgniterとmPDFライブラリを使用して埋め込みPDFファイルを生成します

分類Dev

TwigはURLを解析してYouTube埋め込みのIDを取得します

Related 関連記事

  1. 1

    埋め込みを動的に追加すると、Instagramの埋め込みが機能しない

  2. 2

    埋め込みレイヤーの出力を抽出します

  3. 3

    discord.pyを使用して、埋め込みを読み取り、埋め込みの一部を変数として保存する方法はありますか?

  4. 4

    glove.6B.100d.txtを使用して、spacyに埋め込み、lex.rankをゼロにします。

  5. 5

    <img>タグを使用して埋め込むと、SVGの塗りつぶし遷移が機能しません

  6. 6

    埋め込まれたTomcatを使用するWebアプリはIDEでのみ機能します

  7. 7

    Tensorflowでのすべての単語埋め込みの平均を取得して、文の埋め込みを取得しますか?

  8. 8

    組み込みとして機能するコマンドをbashに埋め込む方法は?

  9. 9

    ボタンのJavaScript機能をDTデータテーブルを使用して埋め込みボタンに移動します

  10. 10

    iTextSharp(C#)を使用してPDFから埋め込みXMLを抽出する

  11. 11

    Javaを使用してドキュメントから埋め込みファイルを抽出します

  12. 12

    CRF(sklearn-crfsuite)モデルトレーニングの機能として単語埋め込みを使用する方法

  13. 13

    PythonとBeautifulSoupを使用して、埋め込まれたツイートからテキストを抽出します

  14. 14

    GloVeの事前トレーニング済み埋め込みを行列としてRに読み込みます

  15. 15

    PDFBoxを使用して単一のPDFページから複数の埋め込み画像を抽出する

  16. 16

    .NET-WCFの参照として埋め込みDLLを使用する

  17. 17

    ひかりのデータソーススタンドとしてTomcat埋め込みを使用しますか?

  18. 18

    PDFの埋め込みにs3署名付きURLを追加しても機能しません

  19. 19

    T5を使用した文の埋め込み

  20. 20

    BERTからの埋め込みを使用して文の類似性を比較する方法

  21. 21

    SpaCyを使用して、ドイツ語の文から主節と副節を抽出します

  22. 22

    すべてのアセンブリをまとめて、exeファイルの埋め込みリソースとして使用します

  23. 23

    Pandas で GroupBy の形状を変更し、不足している場合は nan を埋め込みます

  24. 24

    Androidでitextを使用してPDFに埋め込まれた画像内のテキストを抽出する

  25. 25

    discord.pyのみを使用してWebhookに埋め込みを送信する方法

  26. 26

    列を埋めるキーを使用して、行ごとに1つのキー/値を使用してdictのdictをCSVに書き込みます

  27. 27

    文字列と(埋め込み)数値を使用して文字列をフォーマットします

  28. 28

    CodeIgniterとmPDFライブラリを使用して埋め込みPDFファイルを生成します

  29. 29

    TwigはURLを解析してYouTube埋め込みのIDを取得します

ホットタグ

アーカイブ