異なるタイプの列をトレーニングデータセットとして使用する

Vicpoo

以前、列車セットとして1つの列(文字列型データ)のみを使用するように取り組んでいましたが、詳細列とともに、対応する別の列(フロート型の量列)を列車セットとして考慮したいと思います。金額列の負の値は借方を示し、正の値は貸方を示します。これをどのように進めるか、2つの列を一緒に追加しようとしましたが、float型の量をデータセットで意味のない文字列型に変換する必要がありました。マシンがバリエーションを学習できるかどうかを確認するために、[金額]列を含めたいと思います。これは、この場合非常に重要です。前もって感謝します。

Details                    |Amount               |Category
-------------------------------------------------------------                                
Tanishq Jwellery Bangalore |-990                 |jwellery
ODESK***BAL-28APR13        |240                  |Others
AEGON RELIGARE LIFE IN     |456                  |Others
INTERNET PAYMENT #999999   |-250                 |Transfer in for Card Payment
WWW.VISTAPRINT.IN          |245                  |Print
Khazana Jwellery           |-9000                |jwellery
INTERNET PAYMENT #999999   |785                  |Transfer in for Card Payment
Indian Oil                 |344                  |Fuel
Touch foot wear            |-782                 |Clothing

私のスクリプトの一部:

import pandas as pd
import numpy as np
import scipy as sp
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
import time
import matplotlib.pyplot as plt  
from sklearn.model_selection import train_test_split 

# TRAIN DATA
data= pd.read_csv('ds1.csv', delimiter=',',usecols=['Details','Amount','Category'],encoding='utf-8')
data=data[data.Category !="Others"]

target_one=data['Category']
target_list=data['Category'].unique()

# TEST DATASET
test_data=pd.read_csv('ds2.csv', delimiter='\t',usecols=['Details','Amount','Category'],encoding='utf-8')

x_train, y_train = (data.Details, data.Category )
x_test, y_test = (test_data.Details, test_data.Category)

vect = CountVectorizer(ngram_range=(1,2))
X_train = vect.fit_transform(x_train)

X_test = vect.transform(x_test)
start = time.clock()

mnb = MultinomialNB(alpha =0.13)
mnb.fit(X_train,y_train)

result= mnb.predict(X_test)
print (time.clock()-start)

accuracy_score(result,y_test)
アーサー

「amount」列を、で取得したテキスト機能のマトリックスにスタックするだけの場合はCountVectorizerMultinomialNB:をフィッティングする前にこれを実行してください

import numpy as np

X_amount = data["Amount"].as_matrix().reshape(-1, 1)
X_train = X_train.toarray()
X_train = np.hstack((X_train, X_amount))
X_test_amount = test_data["Amount"].as_matrix().reshape(-1, 1)
X_test = X_test.toarray()
X_test = np.hstack((X_test, X_test_amount)) 

または、X_trainのスパース行列を扱い続けたい場合:

import scipy as sp

X_amount = data["Amount"].as_matrix().reshape(-1, 1)
X_train = sp.sparse.hstack((X_train, X_amount))
X_test_amount = test_data["Amount"].as_matrix().reshape(-1, 1)
X_test = sp.sparse.hstack((X_test, X_test_amount)) 

しかし、その後、非負の特徴値での使用を目的としているためValueError: Input X must be non-negative最終的には、になると思いますMultinomialNB...

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

2つの異なるデータセットを使用してCNNモデルを再トレーニングします

分類Dev

tensorflow2.0を使用した同じデータセットで、トレーニングの精度と検証の精度が異なるのはなぜですか?

分類Dev

データがグループごとに1行ではなく、グループごとに行の形をしている場合に、データセットをトレーニングセットとテストセットに分割/分割する方法

分類Dev

SVMを使用してデータセットをトレーニングする

分類Dev

TensorFlowを使用してmnistディジットデータセットをトレーニングするときの密な形状エラー

分類Dev

ドロップダウンメニューを使用して、2つの異なるデータセットをプロットにプロットします

分類Dev

ドロップダウンメニューを使用して、2つの異なるデータセットをプロットにプロットします

分類Dev

TensorFlow-異なるテストデータセットでトレーニング済みモデルを使用して予測する方法は?

分類Dev

見えないデータ(入力データとは異なるデータ)の損失関数を使用してニューラルネットワークをトレーニングすることは可能ですか?

分類Dev

TensorFlowの独自のデータを使用して、画像をテストセットとトレーニングセットに分割する方法

分類Dev

セレンでデータプロバイダーを使用しているときに、最初のデータセットをnull値として取得する

分類Dev

データパイプラインでテストデータセットをトレーニングする

分類Dev

散布図として、1つのプロットに異なるデータフレームの異なる列をプロットします

分類Dev

列をパターンマッチングとして使用して、2つの異なるデータフレームの行をマージする

分類Dev

データをスケーリングするとき、トレーニングデータセットは「フィット」と「変換」を使用しますが、テストデータセットは「変換」のみを使用するのですか?

分類Dev

データテーブルを使用して、外部データセットとデータレンダリングを使用する場合のタグの問題

分類Dev

2つの異なるデータセットを使用してテンプレートにテーブルを入力するDjango

分類Dev

インポートされたデータを使用してRの重要な差異をプロットする

分類Dev

同じデータを使用してトレーニングされた2つのNNの大幅に異なる「重み」と「バイアス」

分類Dev

MNISTデータセットPytorchを使用してSqueezeNetモデルをトレーニングする

分類Dev

グローブのトレーニングデータを使用してデータセットの単語埋め込みを取得する

分類Dev

異なるプリセットテンプレートを使用してクラスのインスタンスを作成する

分類Dev

Caffeを使用してデータセットをトレーニングすると、HDF5ファイルが複数回読み込まれます

分類Dev

FANNの検証データセットを使用してニューラルネットワークをトレーニングする

分類Dev

Ubuntu 16.3つの異なるモニターをセットアップしようとしています

分類Dev

テストおよびトレーニングデータセットで時間ベースの分割を使用してデータを分割する

分類Dev

2つの異なるデータフレームを使用して、積み上げ面積プロットにラインプロットを課します

分類Dev

アメリアを使用してRのNA値を単純に代入し、データセットを70:30の分割でデータセットとトレーニングセットに分割するにはどうすればよいですか?

分類Dev

Python - データフレーム列を異なるデータ型としてフォーマットする

Related 関連記事

  1. 1

    2つの異なるデータセットを使用してCNNモデルを再トレーニングします

  2. 2

    tensorflow2.0を使用した同じデータセットで、トレーニングの精度と検証の精度が異なるのはなぜですか?

  3. 3

    データがグループごとに1行ではなく、グループごとに行の形をしている場合に、データセットをトレーニングセットとテストセットに分割/分割する方法

  4. 4

    SVMを使用してデータセットをトレーニングする

  5. 5

    TensorFlowを使用してmnistディジットデータセットをトレーニングするときの密な形状エラー

  6. 6

    ドロップダウンメニューを使用して、2つの異なるデータセットをプロットにプロットします

  7. 7

    ドロップダウンメニューを使用して、2つの異なるデータセットをプロットにプロットします

  8. 8

    TensorFlow-異なるテストデータセットでトレーニング済みモデルを使用して予測する方法は?

  9. 9

    見えないデータ(入力データとは異なるデータ)の損失関数を使用してニューラルネットワークをトレーニングすることは可能ですか?

  10. 10

    TensorFlowの独自のデータを使用して、画像をテストセットとトレーニングセットに分割する方法

  11. 11

    セレンでデータプロバイダーを使用しているときに、最初のデータセットをnull値として取得する

  12. 12

    データパイプラインでテストデータセットをトレーニングする

  13. 13

    散布図として、1つのプロットに異なるデータフレームの異なる列をプロットします

  14. 14

    列をパターンマッチングとして使用して、2つの異なるデータフレームの行をマージする

  15. 15

    データをスケーリングするとき、トレーニングデータセットは「フィット」と「変換」を使用しますが、テストデータセットは「変換」のみを使用するのですか?

  16. 16

    データテーブルを使用して、外部データセットとデータレンダリングを使用する場合のタグの問題

  17. 17

    2つの異なるデータセットを使用してテンプレートにテーブルを入力するDjango

  18. 18

    インポートされたデータを使用してRの重要な差異をプロットする

  19. 19

    同じデータを使用してトレーニングされた2つのNNの大幅に異なる「重み」と「バイアス」

  20. 20

    MNISTデータセットPytorchを使用してSqueezeNetモデルをトレーニングする

  21. 21

    グローブのトレーニングデータを使用してデータセットの単語埋め込みを取得する

  22. 22

    異なるプリセットテンプレートを使用してクラスのインスタンスを作成する

  23. 23

    Caffeを使用してデータセットをトレーニングすると、HDF5ファイルが複数回読み込まれます

  24. 24

    FANNの検証データセットを使用してニューラルネットワークをトレーニングする

  25. 25

    Ubuntu 16.3つの異なるモニターをセットアップしようとしています

  26. 26

    テストおよびトレーニングデータセットで時間ベースの分割を使用してデータを分割する

  27. 27

    2つの異なるデータフレームを使用して、積み上げ面積プロットにラインプロットを課します

  28. 28

    アメリアを使用してRのNA値を単純に代入し、データセットを70:30の分割でデータセットとトレーニングセットに分割するにはどうすればよいですか?

  29. 29

    Python - データフレーム列を異なるデータ型としてフォーマットする

ホットタグ

アーカイブ