RDDs를 만드는 방법에는 2가지가 있다.
하나는 Parallelized Collections 이고, External Datasets 이다.
1. Parallelized Collections
- SparkContext
’s parallelize
함수 호출을 통해 만든다. 드라이버 프로그램 내에 존재하는 객체를 RDD 로 만드는 것이다.
data = [1, 2, 3, 4, 5] distData = sc.parallelize(data)
2. External Datasets
스파크는 분산 데이터 셋 ( ex. HDFS, Cassandra, HBase 등 ) 으로부터 RDD 를 생성할 수 있다.
>>> distFile = sc.textFile("data.txt")
이런식으로 연산에 필요한 객체, 데이터 등을 Spark 의 RDD 로 변환 할 수 있다.
p.s 뭔가 내용을 너무 세세하게 나눴나;;; 일단은 다음과 위와 같고;; 다음 글에 RDD 의 연산자에 대해서 정리하겠다.
'Spark' 카테고리의 다른 글
개발환경 셋팅하기 with pycharm (0) | 2016.06.14 |
---|---|
2-2.RDD - Operations (0) | 2016.06.03 |
2. RDD (0) | 2016.04.05 |
1. spark 설치하기 (0) | 2016.04.05 |
0. Spark ( Lightning-fast cluster computing ) (0) | 2016.04.03 |