NLP逆トークン化（トークンから適切にフォーマットされた文への移行）

debugcn 投稿 Dev

ナイジェルン

PythonのSpacyパッケージには、文をインテリジェントにトークンに分割する統計的トークナイザーがあります。私の質問は、トークンのリストから適切にフォーマットされた文に戻ることを可能にするパッケージはありますか？基本的に、次のことを実行できる関数が必要です。

>>> toks = ['hello', ',', 'i', 'ca', "n't", 'feel', 'my', 'feet', '!']
>>> some_function(toks)
"Hello, I can't feel my feet!"

間隔、大文字、または短縮が適切な文でどのように機能するかを知るには、おそらく何らかの統計/ルールベースの手順が必要です。

三段論法_

spaCy内では、を使用していつでも元の文字列を再構築できます''.join(token.text_with_ws for token in doc)。あなたが持っているのが文字列のリストだけである場合、本当に良い決定論的解決策はありません。逆モデルをトレーニングするか、いくつかの近似ルールを使用できます。このdetokenize()関数の適切な汎用実装はわかりません。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-30

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

NLP逆トークン化（トークンから適切にフォーマットされた文への移行）

NLP逆トークン化（トークンから適切にフォーマットされた文への移行）

私のSQLワークベンチからcsvデータを適切にフォーマットする方法

適切にフォーマットされたテーブルへの3Dデータ（ケーブル）

適切にフォーマットされたテーブルへの再帰リスト

最終クラスのメソッドは、デフォルトで関数最適化へのポインターに適用されますか？

C ++ "<デフォルトのコンストラクター>からパラメーター化されたコンストラクターに変換するのに適したコンストラクターが存在しません

適切にフォーマットされたJSONファイルの一部のセクションの特定の不明な文字列をbashから埋めて変更し、フォーマットをそのまま維持するにはどうすればよいですか？

ディレクトリ内のファイル数の*適切に*フォーマットされたリストを作成する-おそらくawk＆sed

PHPSQLの結果から適切にフォーマットされたXMLを作成する

APIからAntデザインテーブルにプルされたデータをより適切にフォーマットする方法

ブートストラップ; 行/セクションの背景を適切にフォーマットする

DOMからXMLへのトランスフォーマーロジック

IndexedDB：URLを受け入れられたマークダウン/ HTMLテキストフォーマットタグにマップするための適切なスキーマ

フォーマットされた文字列/ CLI出力から特定のトークンを抽出するにはどうすればよいですか？

マーベリック10.9.2に電力線のパッチが適用されたフォントをインストールする際の問題

BeautifulSoupによってスクレイピングされた後、テーブルを適切にフォーマットする

Java 8のエポックミリスのタイムスタンプからフォーマットされた日付へ、どうやって？

GoogleドキュメントからスプレッドシートにフォーマットされたGoogleスクリプトコピーテキストは太字/下線付きのまま...フォーマット

異なるディレクトリ/フォルダからモジュールをインポートするための適切な構文

Microsoft SQLServerからの適切にフォーマットされていないデータを整理する

クリックされたボタンの属性値をフォーム送信イベントに適切に渡す方法は？

パンダシリーズのベクトル化されたルックアップから辞書へ

リンクされたSQLサーバーへの挿入を適切にトリガーする方法は？

コンポーネントの部首によって編成された漢字のインデックス。スタンフォードコアnlp

適切にフォーマットされたテーブルをコンソールに印刷するにはどうすればよいですか？

フォーマットされた文字列へのオブジェクト

ロンボクで生成されたコードのフォーマット

Androidパフォーマンスの最適化-キャッシュされたビットマップをテキストビューに描画する方法

デフォルトのコンストラクターからパラメーター化されたコンストラクターを呼び出す方法？

ワークフローイベントから公開されたトークンにアクセスするための構文

ディレクトリ内のファイル数の適切にフォーマットされたリストを作成する-おそらくawk＆sed