Spark2 Apache Spark Review ② 주요 개념 : RDD All about Apache Spark Spark에 대한 소개글은 아래 이전 포스팅을 참고하시면 됩니다. 이번 포스팅에서는 실제 활용에 있어서 꼭 필요한 내용, 유용한 내용에 대해 작성하겠습니다. 2020/10/04 - Apache Spark Review ① 소개 2020/10/04 - Apache Spark Review ② 주요 개념 : RDD 2020/10/04 - Apache Spark Review ③ 주요 개념 : Pair RDD 2020/10/04 - Apache Spark Review ④ 주요 개념 : DataFrame RDD(Resilient Distributed Datasets) Spark는 RDD라는 Immutable ,자바 가상 머신(JVM) 객체들의 집합으로 이루워져있습니다. 파이썬.. 2020. 10. 4. Apache Spark Review ① 소개 All about Apache Spark 2020/10/04 - Apache Spark Review ① 소개 2020/10/04 - Apache Spark Review ② 주요 개념 : RDD 2020/10/04 - Apache Spark Review ③ 주요 개념 : Pair RDD 2020/10/04 - Apache Spark Review ④ 주요 개념 : DataFrame 최근 단시간에 대용량 데이터를 처리해야하는 업무가 많아지고 있어 이 분야에서 핫하게 사용 중인 Spark에 대해 정리합니다. Spark을 사용하지 않았을 땐 대용량 데이터를 Chunk 단위로 불러와서 일부를 처리하여 다시 저장한 후에 다시 Merge 하는 불합리하고 비효율적인 방법을 사용했는데 Spark으로 매우 획기적으로 시간을.. 2020. 10. 4. 이전 1 다음