
목차 Apache Spark Ecosystem, Runtime Architecture, Application LifeCycle에 관해 정리한 문서 Apache Spark의 등장 배경Spark의 등장 배경을 설명하기 위해선, 먼저 Hadoop의 MapReduce에 대한 이야기를 할 필요가 있다. Hadoop은 하나의 컴퓨터에서 처리하기 어려운 대용량 데이터를, 여러 컴퓨터에 분산 저장 및 처리하여 빠르게 작업하기 위한 플랫폼이다. 그리고 Hadoop에서 데이터를 처리하는 방법이 바로 MapReduce 이다. MapReduce 처리 과정을 이해하기 위해 아래 그림을 보자.위 그림은 IBM에서 제공한 예제를 가져온 것으로, 데이터는 아래와 같다.Input 데이터: 각 도시 명, 도시의 일별 기온 값에 대한 ..