実世界の機械学習アプリケーションに関連する質問があります。ばかげているかもしれません笑。
私はしばらくの間機械学習を自己学習してきましたが、ほとんどの演習ではcsvファイルをデータソース(処理済みと未加工の両方)として使用していました。機械学習のためにcsvファイルをチャネル/供給データにインポートする以外の方法はありますか?
例:古いデータを収集してCSVファイルに保存するのではなく、リアルタイムで機械学習のためにFacebook / Twitterライブフィードのデータをストリーミングします。
データソースは何でもかまいません。通常、CSVまたはJSONファイルとして提供されます。しかし、現実の世界では、TwitterなどのWebサイトがあるとしましょう。おっしゃるように、SQLデータベースなどの合理的なDBにデータを格納し、一部のデータについてはそれらをに格納します。 -メモリキャッシュ。
基本的に、これらの両方を利用してデータを取得し、処理することができます。ここで重要なのは、メモリに収まらないデータが多すぎる場合、実際にはすべてをクエリして処理することはできません。その場合、いくつかのスマートアルゴリズムを利用してデータをチャンクで処理します。
SQLなどの一部のデータベースの良いところは、SQLスクリプトで直接呼び出して、データを効率的に計算できる一連の関数を提供することです。たとえばSUM()
、関数SQLを使用して、テーブル全体または何かの列の合計を取得できます。これにより、効率的で簡単なデータ操作が可能になります。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加