NLP逆トークン化(トークンから適切にフォーマットされた文への移行)

ナイジェルン

PythonのSpacyパッケージには、文をインテリジェントにトークンに分割する統計的トークナイザーがあります。私の質問は、トークンのリストから適切にフォーマットされた文に戻ることを可能にするパッケージはありますか?基本的に、次のことを実行できる関数が必要です。

>>> toks = ['hello', ',', 'i', 'ca', "n't", 'feel', 'my', 'feet', '!']
>>> some_function(toks)
"Hello, I can't feel my feet!"

間隔、大文字、または短縮が適切な文でどのように機能するかを知るには、おそらく何らかの統計/ルールベースの手順が必要です。

三段論法_

spaCy内では、を使用していつでも元の文字列を再構築できます''.join(token.text_with_ws for token in doc)あなたが持っているのが文字列のリストだけである場合、本当に良い決定論的解決策はありません。逆モデルをトレーニングするか、いくつかの近似ルールを使用できます。このdetokenize()関数の適切な汎用実装はわかりません

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

私のSQLワークベンチからcsvデータを適切にフォーマットする方法

分類Dev

適切にフォーマットされたテーブルへの3Dデータ(ケーブル)

分類Dev

適切にフォーマットされたテーブルへの再帰リスト

分類Dev

最終クラスのメソッドは、デフォルトで関数最適化へのポインターに適用されますか?

分類Dev

C ++ "<デフォルトのコンストラクター>からパラメーター化されたコンストラクターに変換するのに適したコンストラクターが存在しません

分類Dev

適切にフォーマットされたJSONファイルの一部のセクションの特定の不明な文字列をbashから埋めて変更し、フォーマットをそのまま維持するにはどうすればよいですか?

分類Dev

ディレクトリ内のファイル数の*適切に*フォーマットされたリストを作成する-おそらくawk&sed

分類Dev

PHPSQLの結果から適切にフォーマットされたXMLを作成する

分類Dev

APIからAntデザインテーブルにプルされたデータをより適切にフォーマットする方法

分類Dev

ブートストラップ; 行/セクションの背景を適切にフォーマットする

分類Dev

DOMからXMLへのトランスフォーマーロジック

分類Dev

IndexedDB:URLを受け入れられたマークダウン/ HTMLテキストフォーマットタグにマップするための適切なスキーマ

分類Dev

フォーマットされた文字列/ CLI出力から特定のトークンを抽出するにはどうすればよいですか?

分類Dev

マーベリック10.9.2に電力線のパッチが適用されたフォントをインストールする際の問題

分類Dev

BeautifulSoupによってスクレイピングされた後、テーブルを適切にフォーマットする

分類Dev

Java 8のエポックミリスのタイムスタンプからフォーマットされた日付へ、どうやって?

分類Dev

GoogleドキュメントからスプレッドシートにフォーマットされたGoogleスクリプトコピーテキストは太字/下線付きのまま...フォーマット

分類Dev

異なるディレクトリ/フォルダからモジュールをインポートするための適切な構文

分類Dev

Microsoft SQLServerからの適切にフォーマットされていないデータを整理する

分類Dev

クリックされたボタンの属性値をフォーム送信イベントに適切に渡す方法は?

分類Dev

パンダシリーズのベクトル化されたルックアップから辞書へ

分類Dev

リンクされたSQLサーバーへの挿入を適切にトリガーする方法は?

分類Dev

コンポーネントの部首によって編成された漢字のインデックス。スタンフォードコアnlp

分類Dev

適切にフォーマットされたテーブルをコンソールに印刷するにはどうすればよいですか?

分類Dev

フォーマットされた文字列へのオブジェクト

分類Dev

ロンボクで生成されたコードのフォーマット

分類Dev

Androidパフォーマンスの最適化-キャッシュされたビットマップをテキストビューに描画する方法

分類Dev

デフォルトのコンストラクターからパラメーター化されたコンストラクターを呼び出す方法?

分類Dev

ワークフローイベントから公開されたトークンにアクセスするための構文

Related 関連記事

  1. 1

    私のSQLワークベンチからcsvデータを適切にフォーマットする方法

  2. 2

    適切にフォーマットされたテーブルへの3Dデータ(ケーブル)

  3. 3

    適切にフォーマットされたテーブルへの再帰リスト

  4. 4

    最終クラスのメソッドは、デフォルトで関数最適化へのポインターに適用されますか?

  5. 5

    C ++ "<デフォルトのコンストラクター>からパラメーター化されたコンストラクターに変換するのに適したコンストラクターが存在しません

  6. 6

    適切にフォーマットされたJSONファイルの一部のセクションの特定の不明な文字列をbashから埋めて変更し、フォーマットをそのまま維持するにはどうすればよいですか?

  7. 7

    ディレクトリ内のファイル数の*適切に*フォーマットされたリストを作成する-おそらくawk&sed

  8. 8

    PHPSQLの結果から適切にフォーマットされたXMLを作成する

  9. 9

    APIからAntデザインテーブルにプルされたデータをより適切にフォーマットする方法

  10. 10

    ブートストラップ; 行/セクションの背景を適切にフォーマットする

  11. 11

    DOMからXMLへのトランスフォーマーロジック

  12. 12

    IndexedDB:URLを受け入れられたマークダウン/ HTMLテキストフォーマットタグにマップするための適切なスキーマ

  13. 13

    フォーマットされた文字列/ CLI出力から特定のトークンを抽出するにはどうすればよいですか?

  14. 14

    マーベリック10.9.2に電力線のパッチが適用されたフォントをインストールする際の問題

  15. 15

    BeautifulSoupによってスクレイピングされた後、テーブルを適切にフォーマットする

  16. 16

    Java 8のエポックミリスのタイムスタンプからフォーマットされた日付へ、どうやって?

  17. 17

    GoogleドキュメントからスプレッドシートにフォーマットされたGoogleスクリプトコピーテキストは太字/下線付きのまま...フォーマット

  18. 18

    異なるディレクトリ/フォルダからモジュールをインポートするための適切な構文

  19. 19

    Microsoft SQLServerからの適切にフォーマットされていないデータを整理する

  20. 20

    クリックされたボタンの属性値をフォーム送信イベントに適切に渡す方法は?

  21. 21

    パンダシリーズのベクトル化されたルックアップから辞書へ

  22. 22

    リンクされたSQLサーバーへの挿入を適切にトリガーする方法は?

  23. 23

    コンポーネントの部首によって編成された漢字のインデックス。スタンフォードコアnlp

  24. 24

    適切にフォーマットされたテーブルをコンソールに印刷するにはどうすればよいですか?

  25. 25

    フォーマットされた文字列へのオブジェクト

  26. 26

    ロンボクで生成されたコードのフォーマット

  27. 27

    Androidパフォーマンスの最適化-キャッシュされたビットマップをテキストビューに描画する方法

  28. 28

    デフォルトのコンストラクターからパラメーター化されたコンストラクターを呼び出す方法?

  29. 29

    ワークフローイベントから公開されたトークンにアクセスするための構文

ホットタグ

アーカイブ