SAA学習-データベース-増大するデータ量への対応
今回のテーマ:増大するデータ量への対応
概要
ベストプラクティスの「⑦増大するデータ量の対応」で、
IoT/ビックデータが絶えず増加するデータの保持を効率的に実施する概念をおさらいとなります。
増大するデータ
WEBの発展によりビックデータ蓄積とIoTの発展によるIoTデータ蓄積によりデータ量が大きく増大しています。
事例は以下のようなものがあります。
データ量への対応
効率的なデータ蓄積とIoTなどの大量ストリームデータ処理や解析方法等が必要不可欠となります。
以下の図はAWSマネージドサービスの概要図となります。
ビックデータに必要な技術
ビックデータに対応したデータ蓄積・処理技術が必要不可欠となります。
特徴は以下の項目があります。
Volume:大量データ
大量のデータを効率的に蓄積可能なデータベース技術
Variety:多様なデータ
多様な形式のデータを蓄積可能なデータベース技術
Velocity:速い速度
高速処理が可能なデータ処理ソフトウェア/ハードウェア
データレイクの活用
ビックデート活用の中心はデータレイク型のデータベースを採用されます。
以下はDWHとデータレイクの項目についておさらいします。
- データウェアハウス中心:利用用途に応じてデータを貯めて活用。貯める前に変換を実施。
- データレイク:できる限り生データをほぼ全データ保存する際に活用。貯めた後に変換を実施。
以下はDWH中心とデータレイク中心の比較表となります。
項目 | データウェアハウス中心 | データレイク中心 |
---|---|---|
データ収集 | ・目的別データ →必要なデータのみ抽出/収集 ・構造化データ中心 |
・生データ+目的別データ ・構造化/半構造化/非構造化データ |
蓄積 | ・必要なデータのみを抽出/蓄積 | ・変換しないで生データ形式で保存 ・エッジ処理したデータを保存 |
処理/加工 | ・関連するデータ構造(スキーマ)に変換 ・SQLによる操作 |
・事前にスキーマ(データ構造)を定義しない SQL/SAS/MapReduce/R/NoSQLなどで操作 |
可視化分析 | ・利用者がデータ分析/レポート内容などで利用目的を事前に特定し構築 | ・事前に目的を定義せず、ユーザーがデータ群から新たな価値を抽出しデータを解釈・活用 |
データウェアハウス型とデータレイク型のデータ処理基盤の概略図は以下のようになります。
- データウェアハウス型のデータ処理基盤
- データレイク型のデータ処理基盤
Apacheシリーズ
ビックデータ処理向けの2種があります。
- ApatchHadoop:大量データバッチ向け
- ApatchSpark:ストリーミング処理向け
AWSのデータレイク構造
AWSマネージドサービスをデータレイク型のデータ処理基盤に埋め込むと以下のような相関図となります。
今回のテーマは以上です。