SAA学習-データベース-増大するデータ量への対応 - おっさん社内SEエンジニアの勉強ブログ

今回のテーマ：増大するデータ量への対応

ベストプラクティスの「⑦増大するデータ量の対応」で、
IoT/ビックデータが絶えず増加するデータの保持を効率的に実施する概念をおさらいとなります。

WEBの発展によりビックデータ蓄積とIoTの発展によるIoTデータ蓄積によりデータ量が大きく増大しています。
事例は以下のようなものがあります。

効率的なデータ蓄積とIoTなどの大量ストリームデータ処理や解析方法等が必要不可欠となります。
以下の図はAWSマネージドサービスの概要図となります。

f:id:In-houseSE:20210810072733p:plain

ビックデータに対応したデータ蓄積・処理技術が必要不可欠となります。
特徴は以下の項目があります。

大量のデータを効率的に蓄積可能なデータベース技術

多様な形式のデータを蓄積可能なデータベース技術

高速処理が可能なデータ処理ソフトウェア/ハードウェア

ビックデート活用の中心はデータレイク型のデータベースを採用されます。
以下はDWHとデータレイクの項目についておさらいします。

以下はDWH中心とデータレイク中心の比較表となります。

項目	データウェアハウス中心	データレイク中心
データ収集	・目的別データ →必要なデータのみ抽出/収集・構造化データ中心	・生データ＋目的別データ・構造化/半構造化/非構造化データ
蓄積	・必要なデータのみを抽出/蓄積	・変換しないで生データ形式で保存・エッジ処理したデータを保存
処理/加工	・関連するデータ構造(スキーマ)に変換・SQLによる操作	・事前にスキーマ(データ構造)を定義しない SQL/SAS/MapReduce/R/NoSQLなどで操作
可視化分析	・利用者がデータ分析/レポート内容などで利用目的を事前に特定し構築	・事前に目的を定義せず、ユーザーがデータ群から新たな価値を抽出しデータを解釈・活用