AWS EMR

Overview

Amazon EMRは、オープンソース分散処理フレームワークを活用して、大量のデータを処理・分析するためのサービス。
EMRは、GoogleのフレームワークであるMapReduceをベースに実装されており、Apache Hadoop(以降、Hadoopと表記)やApache Spark(以降、Sparkと表記)などの分散処理フレームワークを提供している。

EMRの基本用語

EMRでは、さまざまな用語が登場する。

MapReduce

MapReduceは、ビッグデータを効率的に分散処理するためにGoogleが開発した、Hadoopフレームワーク内のプログラミングモデル。
テラバイト規模のデータを分割して並列処理することで、より効率的で迅速な処理を可能にします。

Hadoop

Hadoopは、Hadoop File SystemやMapReduceなどにより構成されたビックデータの分散処理を行うオープンソースソフトウェア。
Hadoopはフレームワークやプログラミング基盤に位置づけられ、ビッグデータに対する処理速度向上のために利用されます。

Spark

Sparkは、データの格納場所をHDDやSSDではなく、メモリーに展開することでHadoopよりも大幅に高速な処理速度を実現したオープンソースソフトウェア。リアルタイム処理を得意としており、同じデータを何度も利用する処理で最適なソフトウェア。

クラスター

クラスターは、EC2インスタンスのグループを指します。また、クラスターグループのインスタンスをノードと呼ぶ。

EMRのノードタイプ

EMRのノードタイプは、次のとおりです。

AWS EMR

Overview​

EMRの基本用語​

MapReduce​

Hadoop​

Spark​

クラスター​

EMRのノードタイプ​