デザインパターン
一時的クラスタ
- ジョブが実行している間だけ動作する
- 起動時間が短いため、コスト削減
- 運用コスト削減
永続的クラスタ
- ジョブの実行に関係なく動作する
- 複数ジョブでデータ共有
- 一時的クラスタを何度も起動するケースに比べて、コスト削減できる場合がある
決め手
- データロード時間
- 処理時間
- ジョブ数
ノード仕様
- TODO
Hadoop
https://dev.classmethod.jp/cloud/aws/cmstudy-amazon-emr/
- 巨大データをバッチ処理する並列分散処理基盤
- 集中管理型の分散システムで、HDFSとMapReduceの2つのコンポーネントにより、並列分散処理を実現するミドルウェア
HDFS
Hadoop Distributed File System
- 分散ファイルシステム
- 複数のサーバにファイルを分割して保持する
- そのため、巨大なファイルを保持することができる
- マスタースレーブ構成
- 複数のシステムが動作する環境下において、制御する側(マスター)と、制御される側(スレーブ)に役割を分担して構成される方式
- 入力ファイルはブロックサイズで分割される(分割されたものをブロックという)
MapReduce
- 分散処理フレームワーク
- マスタースレーブ構成
- 1台のJobTracker、複数台のTaskTracker