AWS EMR
Overview
Amazon EMRは、オープンソース分散処理フレームワークを活用して、大量のデータを処理・分析するためのサービス。
EMRは、GoogleのフレームワークであるMapReduceをベースに実装されており、Apache Hadoop(以降、Hadoopと表記)やApache Spark(以降、Sparkと表記)などの分散処理フレームワークを提供している。
EMRの基本用語
EMRでは、さまざまな用語が登場する。
MapReduce
MapReduceは、ビッグデータを効率的に分散処理するためにGoogleが開発した、Hadoopフレームワーク内のプログラミングモ デル。
テラバイト規模のデータを分割して並列処理することで、より効率的で迅速な処理を可能にします。
Hadoop
Hadoopは、Hadoop File SystemやMapReduceなどにより構成されたビックデータの分散処理を行うオープンソースソフトウェア。
Hadoopはフレームワークやプログラミング基盤に位置づけられ、ビッグデータに対する処理速度向上のために利用されます。
Spark
Sparkは、データの格納場所をHDDやSSDではなく、メモリーに展開することでHadoopよりも大幅に高速な処理速度を実現したオープンソースソフトウェア。リアルタイム処理を得意としており、同じデータを何度も利用する処理で最適なソフトウェア。
クラスター
クラスターは、EC2インスタンスのグループを指します。また、クラスターグループのインスタンスをノードと呼ぶ。
EMRのノードタイプ
EMRのノードタイプは、次のとおりです。