JE414

  • 홈
  • 태그

driver 1

[Spark] Apache Spark 구조 및 Job 실행 과정

Apache Spark Ecosystem, Runtime Architecture, Application LifeCycle에 관해 정리한 문서 Apache Spark의 등장 배경Spark의 등장 배경을 설명하기 위해선, 먼저 Hadoop의 MapReduce에 대한 이야기를 할 필요가 있다. Hadoop은 하나의 컴퓨터에서 처리하기 어려운 대용량 데이터를, 여러 컴퓨터에 분산 저장 및 처리하여 빠르게 작업하기 위한 플랫폼이다. 그리고 Hadoop에서 데이터를 처리하는 방법이 바로 MapReduce 이다. MapReduce 처리 과정을 이해하기 위해 아래 그림을 보자.위 그림은 IBM에서 제공한 예제를 가져온 것으로, 데이터는 아래와 같다.Input 데이터: 각 도시 명, 도시의 일별 기온 값에 대한 데이터 ..

데이터 엔지니어링 2025.04.21
이전
1
다음
더보기
프로필사진

JE414

개인 정리 블로그

  • 분류 전체보기 (61)
    • 인프라 (11)
    • 데이터 엔지니어링 (3)
    • 머신러닝 (1)
    • Programming (3)
    • Trouble Shooting (5)
    • 문제 풀이 (27)
      • 코드업 (6)
      • 프로그래머스 (16)
      • LeetCode (5)
    • 기타 (3)
    • 잡다한 아카이브 (8)

Tag

MySQL, codeup, 문항정보함수, 문항반응함수, leetcode, DISRUPTION, karpenter 업그레이드, google drive desktop, 프로젝트 헤일메리, 데이터자격검정, python 기초 100제, AWS, SQL 50, aws efs, 검사정보함수, 책, karpenter, kubernetesexecutor, cluster manager, sparksession,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바