본문 바로가기

Spark

2-1. RDD - Parallelized Collections, External Datasets

RDDs를 만드는 방법에는 2가지가 있다.

하나는 Parallelized Collections 이고, External Datasets 이다.



1. Parallelized Collections

 - SparkContext’s parallelize 함수 호출을 통해 만든다. 드라이버 프로그램 내에 존재하는 객체를 RDD 로 만드는 것이다.


data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)




2. External Datasets

스파크는 분산 데이터 셋 ( ex. HDFS, Cassandra, HBase 등 ) 으로부터 RDD 를 생성할 수 있다.


>>> distFile = sc.textFile("data.txt")



이런식으로 연산에 필요한 객체, 데이터 등을 Spark 의 RDD 로 변환 할 수 있다. 





p.s 뭔가 내용을 너무 세세하게 나눴나;;; 일단은 다음과 위와 같고;; 다음 글에 RDD 의 연산자에 대해서 정리하겠다.


'Spark' 카테고리의 다른 글

개발환경 셋팅하기 with pycharm  (0) 2016.06.14
2-2.RDD - Operations  (0) 2016.06.03
2. RDD  (0) 2016.04.05
1. spark 설치하기  (0) 2016.04.05
0. Spark ( Lightning-fast cluster computing )  (0) 2016.04.03