'BigDataOptimization' 태그의 글 목록

[Apache Spark] 7. [튜닝] 100배 빨라지는 성능 최적화: 캐싱, 파티셔닝, 브로드캐스트

안녕하세요! 여러분의 퍼포먼스 튜닝 마스터, 팬돌프입니다.지난 6편에서 우리는 스파크 성능 저하의 주범인 셔플링(Shuffling)의 존재를 알게 되었습니다. "네트워크를 타고 데이터가 날아다니는 비용"이 얼마나 비싼지 이해하셨죠?오늘은 그 비싼 비용을 획기적으로 줄이고, 여러분의 스파크 애플리케이션을 최소 10배에서 최대 100배까지 빠르게 만드는 실전 최적화(Optimization) 기법 3가지를 전수해 드립니다.이 기술들을 적용하기 전과 후, Spark UI에서 줄어든 실행 시간을 확인하신다면 짜릿한 전율을 느끼실 겁니다.1. 기억력을 높여라: 캐싱(Caching)과 Persistence스파크는 기본적으로 지연 연산을 하기 때문에, 액션(Action)을 호출할 때마다 처음부터 다시 계산합니다.상황:..

Data Engineering/Apache Spark 2026.02.01

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

윤남매 아빠's 스토리

BigDataOptimization 2

티스토리툴바