2-1. RDD - Parallelized Collections, External Datasets

RDDs를 만드는 방법에는 2가지가 있다.

하나는 Parallelized Collections 이고, External Datasets 이다.

1. Parallelized Collections

- SparkContext’s parallelize 함수 호출을 통해 만든다. 드라이버 프로그램 내에 존재하는 객체를 RDD 로 만드는 것이다.

data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)

2. External Datasets

스파크는 분산 데이터 셋 ( ex. HDFS, Cassandra, HBase 등 ) 으로부터 RDD 를 생성할 수 있다.

>>> distFile = sc.textFile("data.txt")

이런식으로 연산에 필요한 객체, 데이터 등을 Spark 의 RDD 로 변환 할 수 있다.

p.s 뭔가 내용을 너무 세세하게 나눴나;;; 일단은 다음과 위와 같고;; 다음 글에 RDD 의 연산자에 대해서 정리하겠다.

개발환경 셋팅하기 with pycharm (0)	2016.06.14
2-2.RDD - Operations (0)	2016.06.03
2. RDD (0)	2016.04.05
1. spark 설치하기 (0)	2016.04.05
0. Spark ( Lightning-fast cluster computing ) (0)	2016.04.03

ggoals 의 개발 Note.