異なるタイプの列をトレーニングデータセットとして使用する

debugcn 投稿 Dev

Vicpoo

以前、列車セットとして1つの列（文字列型データ）のみを使用するように取り組んでいましたが、詳細列とともに、対応する別の列（フロート型の量列）を列車セットとして考慮したいと思います。金額列の負の値は借方を示し、正の値は貸方を示します。これをどのように進めるか、2つの列を一緒に追加しようとしましたが、float型の量をデータセットで意味のない文字列型に変換する必要がありました。マシンがバリエーションを学習できるかどうかを確認するために、[金額]列を含めたいと思います。これは、この場合非常に重要です。前もって感謝します。

Details                    |Amount               |Category
-------------------------------------------------------------                                
Tanishq Jwellery Bangalore |-990                 |jwellery
ODESK***BAL-28APR13        |240                  |Others
AEGON RELIGARE LIFE IN     |456                  |Others
INTERNET PAYMENT #999999   |-250                 |Transfer in for Card Payment
WWW.VISTAPRINT.IN          |245                  |Print
Khazana Jwellery           |-9000                |jwellery
INTERNET PAYMENT #999999   |785                  |Transfer in for Card Payment
Indian Oil                 |344                  |Fuel
Touch foot wear            |-782                 |Clothing

私のスクリプトの一部：

import pandas as pd
import numpy as np
import scipy as sp
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import preprocessing
import time
import matplotlib.pyplot as plt  
from sklearn.model_selection import train_test_split 

# TRAIN DATA
data= pd.read_csv('ds1.csv', delimiter=',',usecols=['Details','Amount','Category'],encoding='utf-8')
data=data[data.Category !="Others"]

target_one=data['Category']
target_list=data['Category'].unique()

# TEST DATASET
test_data=pd.read_csv('ds2.csv', delimiter='\t',usecols=['Details','Amount','Category'],encoding='utf-8')

x_train, y_train = (data.Details, data.Category )
x_test, y_test = (test_data.Details, test_data.Category)

vect = CountVectorizer(ngram_range=(1,2))
X_train = vect.fit_transform(x_train)

X_test = vect.transform(x_test)
start = time.clock()

mnb = MultinomialNB(alpha =0.13)
mnb.fit(X_train,y_train)

result= mnb.predict(X_test)
print (time.clock()-start)

accuracy_score(result,y_test)

アーサー

「amount」列を、で取得したテキスト機能のマトリックスにスタックするだけの場合はCountVectorizer、MultinomialNB：をフィッティングする前にこれを実行してください。

import numpy as np

X_amount = data["Amount"].as_matrix().reshape(-1, 1)
X_train = X_train.toarray()
X_train = np.hstack((X_train, X_amount))
X_test_amount = test_data["Amount"].as_matrix().reshape(-1, 1)
X_test = X_test.toarray()
X_test = np.hstack((X_test, X_test_amount))

または、X_trainのスパース行列を扱い続けたい場合：

import scipy as sp

X_amount = data["Amount"].as_matrix().reshape(-1, 1)
X_train = sp.sparse.hstack((X_train, X_amount))
X_test_amount = test_data["Amount"].as_matrix().reshape(-1, 1)
X_test = sp.sparse.hstack((X_test, X_test_amount))

しかし、その後、非負の特徴値での使用を目的としているためValueError: Input X must be non-negative、最終的には、になると思いますMultinomialNB...

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-8

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

異なるタイプの列をトレーニングデータセットとして使用する

異なるタイプの列をトレーニングデータセットとして使用する

2つの異なるデータセットを使用してCNNモデルを再トレーニングします

tensorflow2.0を使用した同じデータセットで、トレーニングの精度と検証の精度が異なるのはなぜですか？

データがグループごとに1行ではなく、グループごとに行の形をしている場合に、データセットをトレーニングセットとテストセットに分割/分割する方法

SVMを使用してデータセットをトレーニングする

TensorFlowを使用してmnistディジットデータセットをトレーニングするときの密な形状エラー

ドロップダウンメニューを使用して、2つの異なるデータセットをプロットにプロットします

ドロップダウンメニューを使用して、2つの異なるデータセットをプロットにプロットします

TensorFlow-異なるテストデータセットでトレーニング済みモデルを使用して予測する方法は？

見えないデータ（入力データとは異なるデータ）の損失関数を使用してニューラルネットワークをトレーニングすることは可能ですか？

TensorFlowの独自のデータを使用して、画像をテストセットとトレーニングセットに分割する方法

セレンでデータプロバイダーを使用しているときに、最初のデータセットをnull値として取得する

データパイプラインでテストデータセットをトレーニングする

散布図として、1つのプロットに異なるデータフレームの異なる列をプロットします

列をパターンマッチングとして使用して、2つの異なるデータフレームの行をマージする

データをスケーリングするとき、トレーニングデータセットは「フィット」と「変換」を使用しますが、テストデータセットは「変換」のみを使用するのですか？

データテーブルを使用して、外部データセットとデータレンダリングを使用する場合のタグの問題

2つの異なるデータセットを使用してテンプレートにテーブルを入力するDjango

インポートされたデータを使用してRの重要な差異をプロットする

同じデータを使用してトレーニングされた2つのNNの大幅に異なる「重み」と「バイアス」

MNISTデータセットPytorchを使用してSqueezeNetモデルをトレーニングする

グローブのトレーニングデータを使用してデータセットの単語埋め込みを取得する

異なるプリセットテンプレートを使用してクラスのインスタンスを作成する

Caffeを使用してデータセットをトレーニングすると、HDF5ファイルが複数回読み込まれます

FANNの検証データセットを使用してニューラルネットワークをトレーニングする

Ubuntu 16.3つの異なるモニターをセットアップしようとしています

テストおよびトレーニングデータセットで時間ベースの分割を使用してデータを分割する

2つの異なるデータフレームを使用して、積み上げ面積プロットにラインプロットを課します

アメリアを使用してRのNA値を単純に代入し、データセットを70:30の分割でデータセットとトレーニングセットに分割するにはどうすればよいですか？

Python - データフレーム列を異なるデータ型としてフォーマットする