おっさん社内SEエンジニアの勉強ブログ

勉強記録のブログとなります。

SAA学習-データベース-増大するデータ量への対応

今回のテーマ:増大するデータ量への対応

概要

ベストプラクティスの「⑦増大するデータ量の対応」で、
IoT/ビックデータが絶えず増加するデータの保持を効率的に実施する概念をおさらいとなります。

増大するデータ

WEBの発展によりビックデータ蓄積とIoTの発展によるIoTデータ蓄積によりデータ量が大きく増大しています。
事例は以下のようなものがあります。

  • WEBの発展によるデータ蓄積:ECサイト
  • IoTの発展によるデータ蓄積:Suica

データ量への対応

効率的なデータ蓄積とIoTなどの大量ストリームデータ処理や解析方法等が必要不可欠となります。
以下の図はAWSマネージドサービスの概要図となります。

f:id:In-houseSE:20210810072733p:plain

ビックデータに必要な技術

ビックデータに対応したデータ蓄積・処理技術が必要不可欠となります。
特徴は以下の項目があります。

Volume:大量データ

大量のデータを効率的に蓄積可能なデータベース技術

Variety:多様なデータ

多様な形式のデータを蓄積可能なデータベース技術

Velocity:速い速度

高速処理が可能なデータ処理ソフトウェア/ハードウェア

データレイクの活用

ビックデート活用の中心はデータレイク型のデータベースを採用されます。
以下はDWHとデータレイクの項目についておさらいします。

  • データウェアハウス中心:利用用途に応じてデータを貯めて活用。貯める前に変換を実施。
  • データレイク:できる限り生データをほぼ全データ保存する際に活用。貯めた後に変換を実施。

以下はDWH中心とデータレイク中心の比較表となります。

項目 データウェアハウス中心 データレイク中心
データ収集 ・目的別データ
→必要なデータのみ抽出/収集
・構造化データ中心
・生データ+目的別データ
・構造化/半構造化/非構造化データ
蓄積 ・必要なデータのみを抽出/蓄積 ・変換しないで生データ形式で保存
・エッジ処理したデータを保存
処理/加工 ・関連するデータ構造(スキーマ)に変換
SQLによる操作
・事前にスキーマ(データ構造)を定義しない
SQL/SAS/MapReduce/R/NoSQLなどで操作
可視化分析 ・利用者がデータ分析/レポート内容などで利用目的を事前に特定し構築 ・事前に目的を定義せず、ユーザーがデータ群から新たな価値を抽出しデータを解釈・活用

データウェアハウス型とデータレイク型のデータ処理基盤の概略図は以下のようになります。

  • データウェアハウス型のデータ処理基盤

f:id:In-houseSE:20210813151334p:plain

  • データレイク型のデータ処理基盤

f:id:In-houseSE:20210813153130p:plain

Apacheシリーズ

ビックデータ処理向けの2種があります。

  • ApatchHadoop:大量データバッチ向け
  • ApatchSpark:ストリーミング処理向け

AWSのデータレイク構造

AWSマネージドサービスをデータレイク型のデータ処理基盤に埋め込むと以下のような相関図となります。

f:id:In-houseSE:20210813153858p:plain

今回のテーマは以上です。