AWS FirehoseからS3にプッシュされたストリームデータを再生するにはどうすればよいですか?

Charlie4fun

パイプライン AWS FirehoseによってS3バケットにデータが保存され、いくつかの処理アプリに並行して渡される方法の例はたくさんあります(上の写真のように)。

しかし、処理アプリがクラッシュした場合に備えて、s3バケットからこのデータを再生する良い方法については何も見つかりません。そして、s3にあるが、Firehoseにはまだない履歴データを提供する必要があります。

FirehoseまたはLambdaで再生することを考えることができますが、次のようになります。

  1. KinesisFirehoseはバケットから消費できませんでした
  2. Lambda will need to deserialize .parquet file to send it to Firehose or Kinesis Data Stream. And I'm confused with this implicit deserializing, because Firehose was serializing it explicitly.

Or maybe there is some other way to put data back from s3 to stream which I completely miss?

EDIT: More over if we will run lambda for pushing records to stream probably it will have to rum more that 15 min. So another option is to run a script doing it which runs on separate EC2 instance. But this methods of extracting data from s3 looks so much more complicated than storing it there with Firehose, that is makes me think there should be some easier approach

Charlie4fun

The problem which stuck me was actually that I expect some more advanced serialization than just converting to JSON (as Kafka support AVRO for example).

Regarding replaying records from s3 bucket: this part of solution seems to be really significantly more complicated, than the one needed for archiving records. So if we can archive stream with out of the box functions of Firehose, for replaying it we will need two lambda functions and two streams.

  1. Lambda 1 (pushes filenames to stream)
  2. Lambda 2 (activated for every filename in the first stream, pushes records from files to second stream)

First lambda is triggered manually, scans through all s3 bucket files and write their names to first stream. Second lambda function is triggered by every event is stream with file names, reads all the records in the file and sends them to final stream. From which there could be consumed but Kinesis Data Analytics or another Lambda.

このソリューションでは、1日に複数のファイルが生成され、すべてのファイルに複数のレコードがあることを想定しています。

このソリューションに似ていますが、私の場合、宛先は記事のDynamoではなくKinesisです。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Aws s3からオーディオファイル(mp3)をストリーミングするにはどうすればよいですか?

分類Dev

AWS SQS宛先に通知がプッシュされるたびにイベントをトリガーするにはどうすればよいですか?

分類Dev

AWS S3からオブジェクトを解析/リクエストして、カスタムUICollectionViewにデータを入力するにはどうすればよいですか?

分類Dev

gsutilを使用して、GoogleクラウドストレージからAWSインスタンスまたはhttpリンク付きのs3バケットにダウンロードするにはどうすればよいですか?

分類Dev

AWS Lambdaからデータを取得し、AWS S3でホストされている静的ウェブサイトに表示するにはどうすればよいですか?

分類Dev

AWS S3にアップロードされたオブジェクトへのパブリック読み取りアクセスを許可するにはどうすればよいですか?

分類Dev

AWS API Gatewayからデータを取得し、S3でホストされている静的ウェブサイトに表示するにはどうすればよいですか?

分類Dev

AWS:CloudFormationを介して既存のS3バケットポリシーを更新するにはどうすればよいですか?

分類Dev

aws cloudwatchから特定のメトリックスからデータを取得するにはどうすればよいですか?

分類Dev

AWS DynamoDBテーブルをS3バケットにエクスポートするにはどうすればよいですか?

分類Dev

AWS S3に保存されているイメージからJSXコンポーネントにパブリックURLを挿入するにはどうすればよいですか?

分類Dev

AWS DynamoDB:DynamoDBストリームでトリガーされたLambdaを注文するにはどうすればよいですか?

分類Dev

AWS IoTでカスタムOTAアップデートを作成するにはどうすればよいですか?

分類Dev

AWS Lambdaに複数のAWSパラメータストアの値をキャッシュするにはどうすればよいですか?

分類Dev

Linux AWSボックスにSSHで接続しましたが、AWSボックスで実行されているスクリプトを閉じずにターミナルを終了するにはどうすればよいですか?

分類Dev

C#アプリケーションをAWS EC2データベースに安全に接続するにはどうすればよいですか?

分類Dev

S3バケットAWSからすべての画像URLのダンプを取得するにはどうすればよいですか?

分類Dev

aws cliを使用してバケットにアップロードされた後にS3オブジェクトのURLを取得するにはどうすればよいですか?

分類Dev

AWS S3 SDK-スレッドプールサイズを設定するにはどうすればよいですか?

分類Dev

AWS :: Serverless :: APIのAWSSAMテンプレートにリクエストバリデーターを追加するにはどうすればよいですか?

分類Dev

IAMポリシーAWSを使用してS3バケットのルートアカウントユーザーにのみアクセスを許可するにはどうすればよいですか?

分類Dev

AWS cliでawsリージョンを使用してS3エンドポイントを取得するにはどうすればよいですか?

分類Dev

AWSオープンデータセットを自分のマシンにダウンロードするにはどうすればよいですか?

分類Dev

AWS Lambda関数を使用してS3から.gzファイルをデコードするにはどうすればよいですか?

分類Dev

aws_s3_bucket_objectデータソースを使用してs3オブジェクトのリストを取得するにはどうすればよいですか?

分類Dev

JavaScript用のaws-sdkを使用して、iOSアプリ(Konyでビルド)からAWS S3にイメージをアップロードするにはどうすればよいですか?

分類Dev

AWS ElasticBeanstalkでRailsアプリのデータベースをシードするにはどうすればよいですか

分類Dev

aws-sdkを使用してファイルをS3に同期的にアップロードするにはどうすればよいですか?

分類Dev

AWSからタイムリーなPOSTリクエストを発行するにはどうすればよいですか?

Related 関連記事

  1. 1

    Aws s3からオーディオファイル(mp3)をストリーミングするにはどうすればよいですか?

  2. 2

    AWS SQS宛先に通知がプッシュされるたびにイベントをトリガーするにはどうすればよいですか?

  3. 3

    AWS S3からオブジェクトを解析/リクエストして、カスタムUICollectionViewにデータを入力するにはどうすればよいですか?

  4. 4

    gsutilを使用して、GoogleクラウドストレージからAWSインスタンスまたはhttpリンク付きのs3バケットにダウンロードするにはどうすればよいですか?

  5. 5

    AWS Lambdaからデータを取得し、AWS S3でホストされている静的ウェブサイトに表示するにはどうすればよいですか?

  6. 6

    AWS S3にアップロードされたオブジェクトへのパブリック読み取りアクセスを許可するにはどうすればよいですか?

  7. 7

    AWS API Gatewayからデータを取得し、S3でホストされている静的ウェブサイトに表示するにはどうすればよいですか?

  8. 8

    AWS:CloudFormationを介して既存のS3バケットポリシーを更新するにはどうすればよいですか?

  9. 9

    aws cloudwatchから特定のメトリックスからデータを取得するにはどうすればよいですか?

  10. 10

    AWS DynamoDBテーブルをS3バケットにエクスポートするにはどうすればよいですか?

  11. 11

    AWS S3に保存されているイメージからJSXコンポーネントにパブリックURLを挿入するにはどうすればよいですか?

  12. 12

    AWS DynamoDB:DynamoDBストリームでトリガーされたLambdaを注文するにはどうすればよいですか?

  13. 13

    AWS IoTでカスタムOTAアップデートを作成するにはどうすればよいですか?

  14. 14

    AWS Lambdaに複数のAWSパラメータストアの値をキャッシュするにはどうすればよいですか?

  15. 15

    Linux AWSボックスにSSHで接続しましたが、AWSボックスで実行されているスクリプトを閉じずにターミナルを終了するにはどうすればよいですか?

  16. 16

    C#アプリケーションをAWS EC2データベースに安全に接続するにはどうすればよいですか?

  17. 17

    S3バケットAWSからすべての画像URLのダンプを取得するにはどうすればよいですか?

  18. 18

    aws cliを使用してバケットにアップロードされた後にS3オブジェクトのURLを取得するにはどうすればよいですか?

  19. 19

    AWS S3 SDK-スレッドプールサイズを設定するにはどうすればよいですか?

  20. 20

    AWS :: Serverless :: APIのAWSSAMテンプレートにリクエストバリデーターを追加するにはどうすればよいですか?

  21. 21

    IAMポリシーAWSを使用してS3バケットのルートアカウントユーザーにのみアクセスを許可するにはどうすればよいですか?

  22. 22

    AWS cliでawsリージョンを使用してS3エンドポイントを取得するにはどうすればよいですか?

  23. 23

    AWSオープンデータセットを自分のマシンにダウンロードするにはどうすればよいですか?

  24. 24

    AWS Lambda関数を使用してS3から.gzファイルをデコードするにはどうすればよいですか?

  25. 25

    aws_s3_bucket_objectデータソースを使用してs3オブジェクトのリストを取得するにはどうすればよいですか?

  26. 26

    JavaScript用のaws-sdkを使用して、iOSアプリ(Konyでビルド)からAWS S3にイメージをアップロードするにはどうすればよいですか?

  27. 27

    AWS ElasticBeanstalkでRailsアプリのデータベースをシードするにはどうすればよいですか

  28. 28

    aws-sdkを使用してファイルをS3に同期的にアップロードするにはどうすればよいですか?

  29. 29

    AWSからタイムリーなPOSTリクエストを発行するにはどうすればよいですか?

ホットタグ

アーカイブ