機械学習用のデータを提供する別の方法（CSVファイルの使用以外）

debugcn 投稿 Dev

面白くない

実世界の機械学習アプリケーションに関連する質問があります。ばかげているかもしれません笑。

私はしばらくの間機械学習を自己学習してきましたが、ほとんどの演習ではcsvファイルをデータソース（処理済みと未加工の両方）として使用していました。機械学習のためにcsvファイルをチャネル/供給データにインポートする以外の方法はありますか？

例：古いデータを収集してCSVファイルに保存するのではなく、リアルタイムで機械学習のためにFacebook / Twitterライブフィードのデータをストリーミングします。

OverCoder

データソースは何でもかまいません。通常、CSVまたはJSONファイルとして提供されます。しかし、現実の世界では、TwitterなどのWebサイトがあるとしましょう。おっしゃるように、SQLデータベースなどの合理的なDBにデータを格納し、一部のデータについてはそれらをに格納します。 -メモリキャッシュ。

基本的に、これらの両方を利用してデータを取得し、処理することができます。ここで重要なのは、メモリに収まらないデータが多すぎる場合、実際にはすべてをクエリして処理することはできません。その場合、いくつかのスマートアルゴリズムを利用してデータをチャンクで処理します。

SQLなどの一部のデータベースの良いところは、SQLスクリプトで直接呼び出して、データを効率的に計算できる一連の関数を提供することです。たとえばSUM()、関数SQLを使用して、テーブル全体または何かの列の合計を取得できます。これにより、効率的で簡単なデータ操作が可能になります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-30

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

機械学習用のデータを提供する別の方法（CSVファイルの使用以外）

機械学習用のデータを提供する別の方法（CSVファイルの使用以外）

学習者に機械学習モデルのタイプを伝える方法

機械学習用の人工シーケンシャルデータを生成する方法は？

Pythonで実際のデータを使用して機械学習モデルをテストする方法

機械学習モデルのimgのサイズを変更する方法

CreateMLを使用したSwiftでの機械学習用のデータテーブルの作成

機械学習を使用して分類のために加速度計データを保存する方法

この浮動小数点データを前処理してscikitで使用する方法-機械学習

事前トレーニング済みの方法で機械学習モデルを使用するKeras、Tensorflow

機械学習の哲学：偏ったデータへのモデルの適用

機械学習/ NLPテキスト分類：テキストファイルのコーパスからモデルをトレーニングする-scikit learn

機械学習モデルの「損失」と「正確さ」を解釈する方法

どの機械学習モデルを使用する必要がありますか？

sklearnを使用せずに機械学習モデルの精度を計算する

タイプミスを克服するための機械学習

トレーニング済みの機械学習モデルを別のデータセットで実行する

機械学習で前処理するためのカテゴリデータを処理する方法

2組の文字列間でパターンを照合するための機械学習モデル？

機械学習を使用してパズルゲームのAIを改善する

機械学習のために「年」データをエンコードする方法は？

機械学習データの前処理で日付変数を処理する方法

機械学習スタジオノートブックでRを使用してPDFファイルを生成してBlobStorageにアップロードする方法

AI、機械学習、データマイニングの最新情報を入手する

このタイプのデータで機械学習アルゴリズムをどのように使用できますか？

機械学習のためのKerasの使用を開始する

機械学習アルゴリズムの循環データ

cで機械学習を含むpickleファイルをロードする方法は？

機械学習を改善するために、各データの数を正確に同じにするというアイドルですか？

自動機械学習-Pythonの同等のコードを学習する

kerasを使用した機械学習の入力として行列NxMを含むhdf5ファイル