AWS FirehoseからS3にプッシュされたストリームデータを再生するにはどうすればよいですか？

debugcn 投稿 Dev

Charlie4fun

パイプライン AWS FirehoseによってS3バケットにデータが保存され、いくつかの処理アプリに並行して渡される方法の例はたくさんあります（上の写真のように）。

しかし、処理アプリがクラッシュした場合に備えて、s3バケットからこのデータを再生する良い方法については何も見つかりません。そして、s3にあるが、Firehoseにはまだない履歴データを提供する必要があります。

FirehoseまたはLambdaで再生することを考えることができますが、次のようになります。

KinesisFirehoseはバケットから消費できませんでした
Lambda will need to deserialize .parquet file to send it to Firehose or Kinesis Data Stream. And I'm confused with this implicit deserializing, because Firehose was serializing it explicitly.

Or maybe there is some other way to put data back from s3 to stream which I completely miss?

EDIT: More over if we will run lambda for pushing records to stream probably it will have to rum more that 15 min. So another option is to run a script doing it which runs on separate EC2 instance. But this methods of extracting data from s3 looks so much more complicated than storing it there with Firehose, that is makes me think there should be some easier approach

Charlie4fun

The problem which stuck me was actually that I expect some more advanced serialization than just converting to JSON (as Kafka support AVRO for example).

Regarding replaying records from s3 bucket: this part of solution seems to be really significantly more complicated, than the one needed for archiving records. So if we can archive stream with out of the box functions of Firehose, for replaying it we will need two lambda functions and two streams.

Lambda 1 (pushes filenames to stream)
Lambda 2 (activated for every filename in the first stream, pushes records from files to second stream)

First lambda is triggered manually, scans through all s3 bucket files and write their names to first stream. Second lambda function is triggered by every event is stream with file names, reads all the records in the file and sends them to final stream. From which there could be consumed but Kinesis Data Analytics or another Lambda.

このソリューションでは、1日に複数のファイルが生成され、すべてのファイルに複数のレコードがあることを想定しています。

このソリューションに似ていますが、私の場合、宛先は記事のDynamoではなくKinesisです。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-8

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

AWS FirehoseからS3にプッシュされたストリームデータを再生するにはどうすればよいですか？

AWS FirehoseからS3にプッシュされたストリームデータを再生するにはどうすればよいですか？

Aws s3からオーディオファイル（mp3）をストリーミングするにはどうすればよいですか？

AWS SQS宛先に通知がプッシュされるたびにイベントをトリガーするにはどうすればよいですか？

AWS S3からオブジェクトを解析/リクエストして、カスタムUICollectionViewにデータを入力するにはどうすればよいですか？

gsutilを使用して、GoogleクラウドストレージからAWSインスタンスまたはhttpリンク付きのs3バケットにダウンロードするにはどうすればよいですか？

AWS Lambdaからデータを取得し、AWS S3でホストされている静的ウェブサイトに表示するにはどうすればよいですか？

AWS S3にアップロードされたオブジェクトへのパブリック読み取りアクセスを許可するにはどうすればよいですか？

AWS API Gatewayからデータを取得し、S3でホストされている静的ウェブサイトに表示するにはどうすればよいですか？

AWS：CloudFormationを介して既存のS3バケットポリシーを更新するにはどうすればよいですか？

aws cloudwatchから特定のメトリックスからデータを取得するにはどうすればよいですか？

AWS DynamoDBテーブルをS3バケットにエクスポートするにはどうすればよいですか？

AWS S3に保存されているイメージからJSXコンポーネントにパブリックURLを挿入するにはどうすればよいですか？

AWS DynamoDB：DynamoDBストリームでトリガーされたLambdaを注文するにはどうすればよいですか？

AWS IoTでカスタムOTAアップデートを作成するにはどうすればよいですか？

AWS Lambdaに複数のAWSパラメータストアの値をキャッシュするにはどうすればよいですか？

Linux AWSボックスにSSHで接続しましたが、AWSボックスで実行されているスクリプトを閉じずにターミナルを終了するにはどうすればよいですか？

C＃アプリケーションをAWS EC2データベースに安全に接続するにはどうすればよいですか？

S3バケットAWSからすべての画像URLのダンプを取得するにはどうすればよいですか？

aws cliを使用してバケットにアップロードされた後にS3オブジェクトのURLを取得するにはどうすればよいですか？

AWS S3 SDK-スレッドプールサイズを設定するにはどうすればよいですか？

AWS :: Serverless :: APIのAWSSAMテンプレートにリクエストバリデーターを追加するにはどうすればよいですか？

IAMポリシーAWSを使用してS3バケットのルートアカウントユーザーにのみアクセスを許可するにはどうすればよいですか？

AWS cliでawsリージョンを使用してS3エンドポイントを取得するにはどうすればよいですか？

AWSオープンデータセットを自分のマシンにダウンロードするにはどうすればよいですか？

AWS Lambda関数を使用してS3から.gzファイルをデコードするにはどうすればよいですか？

aws_s3_bucket_objectデータソースを使用してs3オブジェクトのリストを取得するにはどうすればよいですか？

JavaScript用のaws-sdkを使用して、iOSアプリ（Konyでビルド）からAWS S3にイメージをアップロードするにはどうすればよいですか？

AWS ElasticBeanstalkでRailsアプリのデータベースをシードするにはどうすればよいですか

aws-sdkを使用してファイルをS3に同期的にアップロードするにはどうすればよいですか？

AWSからタイムリーなPOSTリクエストを発行するにはどうすればよいですか？