Pythonでフランス語のテキスト分析を行うための最良の方法は何ですか？

debugcn 投稿 Dev

AliS

フランス語のテキストでテキスト分析を行い、それらのテキスト間の類似性を視覚化します。使用される単語に応じて可能なクラスです。私はPythonを使い始めたばかりで、私のテキストがフランス語であることを考慮してPythonでテキスト分析を行うための最良の方法を知りたいので、あなたの助けをお願いします。

フランス語のテキスト用に特別に設計されたライブラリはありますか？用途は、データをクリーンアップし、さらにデータを分析することです。

私はすでにすることができます：

クリーン：すべての特殊文字を削除し、すべての単語を小文字にし、STOPWORDSを抑制しました
タグ：フランス語の単語には最適ではありません（テストされたライブラリ：StanfordPostagger、Tag.pos de NLTK）。
Lemmatize：フランス語の単語では最適ではありません（-）（FrenchLefffLemmatizer、WordNetLemmatizer）
ステミング：FrenchStemmerスノーボール

フランス語の単語ではできないこと：単数形に渡す、動詞を不定詞形に渡す...

コレンティンリミエ

SpacyライブラリとTreetaggerツール（treetaggerwrapperライブラリを介して使用できます）は、フランス語で適切にサポートされています。

spacyの使用例：

import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
    print(token.lemma_)

プリント：

je
avoir
manger
un
pomme
hier

Treetaggerはインストールがより困難ですが、これはあなたを助けることができます、そしてここにpythonラッパーのドキュメントがあります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-10

コメントを追加

サインイン

分類Dev

Androidで垂直フローテキストを実装するための最良の方法は何ですか？

分類Dev

無料の代数でストリーミングを行うための最良の方法は何ですか？

分類Dev

AndroidでEditTextのテキストの長さを制限するための最良の方法は何ですか

分類Dev

WindowsのPythonで文芸的プログラミングを行うための最良の方法は何ですか？

分類Dev

AWTグラフィックスコンテキストを処理する最良の方法は何ですか？

分類Dev

mlr：FailureModelをテストするための最良の方法は何ですか？

分類Dev

Pythonクラスを整理するための最良の方法は何ですか？

分類Dev

Linuxでプログラムのパフォーマンスをテストするための最良の方法は何ですか

分類Dev

Angular 5でエンドツーエンドのテストを行うための最良の方法は何ですか？

分類Dev

React Jsを操作するための最良の方法は何ですか：Redux、フック、またはコンテキスト？

分類Dev

外部依存関係を持つクラスをテストするための最良の方法は何ですか

分類Dev

AzureWebジョブでBlobにテキストを書き込むための最良の方法は何ですか

分類Dev

Webアプリからボットフレームワークにコンテキスト情報を渡すための最良の方法は何ですか

分類Dev

テキストファイルからセグメントを取り出すための最良の方法は何ですか？

分類Dev

クラス静的初期化子をテストするための最良の方法は何ですか？

分類Dev

多くのifステートメントを回避するための最良の方法は何ですか？

分類Dev

テキスト入力Reduxを作成するための最良の方法は何ですか

分類Dev

PythonからPowerShellスクリプトを実行するための最良の方法は何ですか

分類Dev

スクリプトをもう一度実行するための最良の方法は何ですか？

分類Dev

統合テストを実行するための最良の方法は何ですか？

分類Dev

カスタムソートを行うための最良の方法は何ですか？

分類Dev

Pythonスクリプトを毎日実行するための最良の方法は何ですか？

分類Dev

与えられたパラメータが平方数であるかどうかをテストするためのJavaScriptの最良の方法は何ですか？

分類Dev

Pythonのクラスのコンストラクタの引数のペアを1つだけ許可するための最良の方法は何ですか？

分類Dev

WPFでバインドされたテキストをカスタマイズするための最良の方法は何ですか

分類Dev

Swiftでスカラー値のリストを宣言するための最良の方法は何ですか

分類Dev

空の行を削除するためにテキストファイルをフィルタリングする良い方法は何ですか？

分類Dev

Pythonを使用してPDFのテーブルに含まれるテキストを抽出するための最良の方法は何ですか？

分類Dev

マルチサイトTYPO3インストールでサイト固有の構成を行うための最良の方法は何ですか？

Related 関連記事

記事