ニューラルネットワークに非数値データを含めたいのですが。具体的には、GICS業界分類(ユーティリティ、テクノロジーなど)を調べています。このデータを意味のある数値データに変換できるとは思いません。
1つの解決策は、ダミー変数を使用して各業界にフラグを立てることです。このアプローチの制限は、ニューラルネットの入力層のバルーニング寸法です。このタイプの問題を処理するためのより洗練されたアプローチはありますか?
{'utilities': 0, 'technology': 1}
ネットワークは文字または数字の間に存在しない関係を検出することを学習するため、文字列または連続する数値はニューラルネットでは機能しません。
これを回避するために、One HotEncodingと呼ばれるものを使用します。これは、各カテゴリ変数を状態ベクトルとしてエンコードする手法であるため、カテゴリ値の間に何らかの暗黙の関係があるという仮定を削除します。
配列を使用['Utilities', 'Technology']
すると、1つのホットエンコーディングは次のようになります。gics = [[1,0],[0,1]]
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加