SparkのHashingTFとCountVectorizerの違いは何ですか？

debugcn 投稿 Dev

改：

Sparkでドキュメント分類をしようとしています。HashingTFでハッシュが何を行うかはわかりません。精度を犠牲にしますか？疑わしいですが、わかりません。Spark Docは、「ハッシュトリック」を使用していると言っています...エンジニアが使用した本当に悪い/混乱したネーミングのもう1つの例です（私も有罪です）。CountVectorizerには語彙サイズの設定も必要ですが、テキストコーパスの特定のしきい値の下に表示される単語またはトークンを除外するために使用できるしきい値パラメーターという別のパラメーターがあります。これら2つのトランスフォーマーの違いがわかりません。これを重要にするのは、アルゴリズムの後続のステップです。たとえば、結果のtfidf行列でSVDを実行したい場合、語彙サイズによってSVDの行列のサイズが決まり、コードの実行時間に影響します。

zero323：

いくつかの重要な違い：

部分的に可逆（CountVectorizer）と不可逆（HashingTF）-ハッシュは可逆ではないため、ハッシュベクトルから元の入力を復元することはできません。一方、モデル（インデックス）を持つカウントベクトルは、順序付けられていない入力を復元するために使用できます。結果として、ハッシュされた入力を使用して作成されたモデルは、解釈および監視がはるかに困難になる可能性があります。
メモリと計算オーバーヘッド - HashingTF必要なのは単一のデータスキャンのみで、元の入力とベクトル以外のメモリは必要ありません。CountVectorizerモデルを構築するためにデータをさらにスキャンし、語彙（インデックス）を保存するために追加のメモリが必要です。ユニグラム言語モデルの場合、それは通常問題ではありませんが、より高いNグラムの場合、法外に高くつくか、実行不可能になる可能性があります。
ハッシュは vectorのサイズ、ハッシュ関数、ドキュメントに依存します。カウントは、ベクトル、トレーニングコーパス、およびドキュメントのサイズに依存します。
情報損失の原因 - HashingTF衝突が発生する可能性のある次元削減の場合。CountVectorizer頻度の低いトークンを破棄します。ダウンストリームモデルにどのように影響するかは、特定のユースケースとデータによって異なります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-04-7

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

SparkのHashingTFとCountVectorizerの違いは何ですか？

SparkのHashingTFとCountVectorizerの違いは何ですか？

CountVectorizer + TfidfTransformerとTfidfVectorizerの違いは何ですか

Spark：spark.sqlとsqlCtx.sqlの違いは何ですか

Apache Sparkのjoinとcogroupの違いは何ですか

Apache Sparkのjoinとcogroupの違いは何ですか

Apache Sparkのjoinとcogroupの違いは何ですか

Apache MahoutとApache SparkのMLlibの違いは何ですか？

Apache SparkのforEachAsyncとforEachPartitionAsyncの違いは何ですか？

Sparkの変換とrdd関数の違いは何ですか？

Spark Structured StreamingとDStreamsの違いは何ですか？

Spark：repartitionとrepartitionByRangeの違いは何ですか？

「+ =」と「= +」の違いは何ですか？

/ * ... * /と/ ** ... * /の違いは何ですか

「.equals」と「==」の違いは何ですか？

$ *と$ @の違いは何ですか

「$（this）」と「this」の違いは何ですか？

list（）と[]の違いは何ですか

dict（）と{}の違いは何ですか？

+ =と= +の違いは何ですか？

＃{} $ {}と％{}の違いは何ですか？

「＆nbsp;」の違いは何ですか と「」？

=と==の違いは何ですか？

=と==の違いは何ですか？

$（ ""）と$ .find（ ""）の違いは何ですか？

`＆`と `ref`の違いは何ですか？

^ a | A $と^（a | A）$の違いは何ですか？

「$ pwd」と「./」の違いは何ですか？

=>と->の違いは何ですか？

`cat |`と `<`の違いは何ですか

..と...の違いは何ですか？

「＆nbsp;」の違いは何ですかと「」？