반응형

checkpoint 2

[Apache Flink] 5. [신뢰성] 절대 데이터가 유실되지 않는 마법: Checkpoint와 단 한 번 처리(Exactly-Once)

안녕하세요!지난 4편까지 우리는 데이터를 시간순으로 자르고, 상태를 저장하며, 원하는 형태로 집계하는 Flink의 화려한 데이터 가공 기술들을 모두 마스터했습니다. 로직만 보면 완벽한 실시간 파이프라인이 완성되었죠.하지만 현실 세계의 인프라는 결코 완벽하지 않습니다. 새벽 3시에 서버 메모리가 터져서 TaskManager가 죽는다면? 네트워크 스위치에 장애가 발생해서 연결이 끊어진다면?"서버가 죽기 전까지 유저 A의 결제액을 10만 원까지 더해놨는데... 재시작하면 처음부터 다시 0원부터 더해야 하나요? 아니면 어딘가 저장된 데이터를 다시 읽어오다가 10만 원이 두 번 더해져서 20만 원이 되는 건 아닐까요?"데이터 엔지니어의 가장 큰 악몽인 '데이터 유실'과 '중복 처리'. 오늘은 이 악몽을 완벽하게 ..

[초실시간 데이터 아키텍처] Apache Flink 완벽 정복: Spark의 한계를 넘는 True Streaming 가이드

안녕하세요!데이터 엔지니어링의 끝판왕, '초실시간(Real-time) 스트리밍'의 세계로 오신 것을 환영합니다! Spark Streaming이 훌륭한 도구이긴 하지만, 태생적으로 데이터를 잘게 쪼개어 처리하는 '마이크로 배치(Micro-batch)' 방식이기에 수 초의 지연(Latency)이 발생합니다.하지만 금융권의 이상 거래 탐지(FDS), 초당 수백만 건이 발생하는 클릭 로그 분석, 실시간 추천 시스템에서는 밀리초(ms) 단위의 반응 속도가 필요합니다. 이때 혜성처럼 등장해 업계 표준으로 자리 잡은 진정한 스트리밍 엔진, Apache Flink의 모든 것을 바닥부터 최상위 운영 노하우까지 낱낱이 파헤쳐 보겠습니다.📋 Apache Flink 연재 시리즈 리포트제1편. [서론] 왜 Flink인가? M..

반응형