PythonのSpacyパッケージには、文をインテリジェントにトークンに分割する統計的トークナイザーがあります。私の質問は、トークンのリストから適切にフォーマットされた文に戻ることを可能にするパッケージはありますか?基本的に、次のことを実行できる関数が必要です。
>>> toks = ['hello', ',', 'i', 'ca', "n't", 'feel', 'my', 'feet', '!']
>>> some_function(toks)
"Hello, I can't feel my feet!"
間隔、大文字、または短縮が適切な文でどのように機能するかを知るには、おそらく何らかの統計/ルールベースの手順が必要です。
spaCy内では、を使用していつでも元の文字列を再構築できます''.join(token.text_with_ws for token in doc)
。あなたが持っているのが文字列のリストだけである場合、本当に良い決定論的解決策はありません。逆モデルをトレーニングするか、いくつかの近似ルールを使用できます。このdetokenize()
関数の適切な汎用実装はわかりません。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加