tf idfの切り捨てられたsvdは、値エラー配列が大きすぎます

ハーシット

scikit-learnのTfidfVectorizerによって与えられたスパース行列にTruncatedSVD.fit_transform()を適用しようとしています。

    tsv = TruncatedSVD(n_components=10000,algorithm='randomized',n_iterations=5)
    tfv = TfidfVectorizer(min_df=3,max_features=None,strip_accents='unicode',analyzer='word',token_pattern=r'\w{1,}',ngram_range=(1, 2), use_idf=1,smooth_idf=1,sublinear_tf=1)
    tfv.fit(text)
    text = tfv.transform(text)
    tsv.fit(text)

Value error : array is too big

私が使用できる他のアプローチまたは次元削減は何ですか。

Dthal

問題は次のとおりです。

tsv = TruncatedSVD(n_components=10000...

SVDには10000個のコンポーネントがあります。mxnデータ行列がある場合、SVDには次元がmxn_componentsおよびn_componentsxnの行列があり、データがスパースであっても、これらは密になります。それらの行列はおそらく大きすぎます。

私はあなたのコードをコピーしてKaggleハッシュタグデータ(これは私がこれから来ていると思うものです)で実行しました、そして300のコンポーネントで、pythonは最大1GBを使用していました。10000では、その約30倍を使用します。

ちなみに、ここで行っているのは潜在意味解析であり、これほど多くのコンポーネントの恩恵を受ける可能性は低いです。50〜300の範囲のどこかで、重要なすべてのものをキャプチャする必要があります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

tf.concatとtf.reshapeは勾配フローを切り捨てますか?

分類Dev

TF 2.0 @ tf.functionの例

分類Dev

NLTKにはTF-IDFが実装されていますか?

分類Dev

アナライザー= 'char'でTf-Idf値はどのように計算されますか?

分類Dev

TF 2.0のtf.GradientTapeはtf.gradientsと同等ですか?

分類Dev

tf.reduce_sum が期待値より大きい値を返す

分類Dev

tf.session.runからのネットワーク出力は、keras.Model.predictで取得されたものとは大きく異なります。

分類Dev

Excel 2013:「画像が大きすぎるため、切り捨てられます。」

分類Dev

tf.train.batchのエラー-FIFOQueueが閉じられており、要素が不十分です

分類Dev

TypeError('フィードの値は tf.Tensor オブジェクトにすることはできません....) numpy 配列を提供していますが、

分類Dev

tf.Variableをtf.constantまたはnumpy配列で初期化する方法は?

分類Dev

Excel、カットアンドペースト エラー メッセージ: 「画像が大きすぎるため、切り捨てられます。」

分類Dev

Python tf-idf:tf-idf行列を更新する高速な方法

分類Dev

`tf.keras.losses`と` tf.losses`、または `tf.keras.optimizers`と` tf.optimizers`の違いは何ですか?

分類Dev

JSON文字列(大きな配列からエンコードされた)がHTTPクライアントへの出力時に切り捨てられました

分類Dev

tensorflowのtf.control_dependencies(tf.get_collection(tf.GraphKeys.UPDATE_OPS))

分類Dev

Tensorflow Tf.tf.squared_differenceは、密なレイヤーで値エラーを示しています

分類Dev

TF2-tf.functionとクラス変数が壊れています

分類Dev

TF-IDF行列でSVDを計算する

分類Dev

TF1のトレーニングで使用されるNumpy配列-KerasのTF2の精度ははるかに低くなります

分類Dev

TF-IDFおよび非TF-IDF機能の精度

分類Dev

TF-IDF vs XGBoost vs CNN

分類Dev

Use Tf-idf as features in CNN model

分類Dev

TF-IDF score calculation example

分類Dev

大きなクエリでSQLの「文字列またはバイナリデータが切り捨てられる」エラーを見つける方法

分類Dev

tf__norm()は1つの位置引数を取りますが、2つが与えられました

分類Dev

@ tf.functionデコレータでのTF2.0エラー?

分類Dev

TF操作内でTFモデルを評価すると、エラーがスローされます

分類Dev

TF-IDFまたはWord2Vecを使用して職務記述書からスキルを抽出する

Related 関連記事

  1. 1

    tf.concatとtf.reshapeは勾配フローを切り捨てますか?

  2. 2

    TF 2.0 @ tf.functionの例

  3. 3

    NLTKにはTF-IDFが実装されていますか?

  4. 4

    アナライザー= 'char'でTf-Idf値はどのように計算されますか?

  5. 5

    TF 2.0のtf.GradientTapeはtf.gradientsと同等ですか?

  6. 6

    tf.reduce_sum が期待値より大きい値を返す

  7. 7

    tf.session.runからのネットワーク出力は、keras.Model.predictで取得されたものとは大きく異なります。

  8. 8

    Excel 2013:「画像が大きすぎるため、切り捨てられます。」

  9. 9

    tf.train.batchのエラー-FIFOQueueが閉じられており、要素が不十分です

  10. 10

    TypeError('フィードの値は tf.Tensor オブジェクトにすることはできません....) numpy 配列を提供していますが、

  11. 11

    tf.Variableをtf.constantまたはnumpy配列で初期化する方法は?

  12. 12

    Excel、カットアンドペースト エラー メッセージ: 「画像が大きすぎるため、切り捨てられます。」

  13. 13

    Python tf-idf:tf-idf行列を更新する高速な方法

  14. 14

    `tf.keras.losses`と` tf.losses`、または `tf.keras.optimizers`と` tf.optimizers`の違いは何ですか?

  15. 15

    JSON文字列(大きな配列からエンコードされた)がHTTPクライアントへの出力時に切り捨てられました

  16. 16

    tensorflowのtf.control_dependencies(tf.get_collection(tf.GraphKeys.UPDATE_OPS))

  17. 17

    Tensorflow Tf.tf.squared_differenceは、密なレイヤーで値エラーを示しています

  18. 18

    TF2-tf.functionとクラス変数が壊れています

  19. 19

    TF-IDF行列でSVDを計算する

  20. 20

    TF1のトレーニングで使用されるNumpy配列-KerasのTF2の精度ははるかに低くなります

  21. 21

    TF-IDFおよび非TF-IDF機能の精度

  22. 22

    TF-IDF vs XGBoost vs CNN

  23. 23

    Use Tf-idf as features in CNN model

  24. 24

    TF-IDF score calculation example

  25. 25

    大きなクエリでSQLの「文字列またはバイナリデータが切り捨てられる」エラーを見つける方法

  26. 26

    tf__norm()は1つの位置引数を取りますが、2つが与えられました

  27. 27

    @ tf.functionデコレータでのTF2.0エラー?

  28. 28

    TF操作内でTFモデルを評価すると、エラーがスローされます

  29. 29

    TF-IDFまたはWord2Vecを使用して職務記述書からスキルを抽出する

ホットタグ

アーカイブ