안녕하세요! 여러분의 데이터 엔지니어링 가이드, 팬돌프입니다.지난 시간, 우리는 도커(Docker)를 이용해 내 컴퓨터 안에 멋진 스파크 클러스터를 구축했습니다. 이제 엔진은 힘차게 돌아가고 있습니다. 그렇다면 이제 무엇을 태워야 할까요? 바로 데이터입니다.스파크를 처음 공부하시는 분들이 가장 많이 헷갈려 하는 것이 바로 RDD와 DataFrame의 차이입니다. "옛날 책에는 RDD를 쓰라던데, 요즘은 DataFrame을 쓰라네요?"결론부터 말씀드리면, "특수한 경우가 아니라면 RDD는 잊으셔도 좋습니다." 오늘 3편에서는 왜 우리가 DataFrame을 써야 하는지, 그리고 엑셀처럼 직관적이고 강력하게 데이터를 로딩하는 방법을 알아보겠습니다.1. RDD vs DataFrame: 스마트폰과 피처폰의 차이스..