본문 바로가기

YARN

3. YARN Resource Manager HA(High Availibility) 2.4 이전 Hadoop 버전에서의 RM SPOF 문제 하둡 2.0으로 올라오면서 가장 큰 변화는 NameNode 의 SPOF 문제를 해결했다는 것이다. RM 역할을 하는 서버가 죽거나 응답이 없으면 YARN 시스템 전체가 뻗어버리는 문제가 있었다는 것이다. 즉, RM의 SPOF 이다. 하지만 2.4부터 RM에도 HA 가 지원되기 시작했다. Design for HAResourceManager 의 HA 는 Active/Standby 의 아키텍처를 가지고 있다( 클라우데라에서 아키텍처라는 표현을 쓰네요;; ㅎㅎ )출처 : http://blog.cloudera.com/blog/2014/05/how-apache-hadoop-yarn-ha-works/ ResourceManager State StoreResourc.. 더보기
2. YARN Application 실행( CDH 를 이용하여 Local에 Spark on YARN 실행해보기 ) 여러대의 Cluster 환경 구축을 위해 Vagrant 를 이용할거고, 기본적으로 YARN을 설치하려면 hdfs 도 깔아줘야 한다. 그래서 cloudera 에서는 이러한 환경을 위해 vagrant image 를 제공해준다. 링크 : Virtual Apache Hadoop Cluster Vagrant 파일을 찬찬히 살펴보면 다음과 같은 내용의 설정이 되어 있다.( 사실 그냥 실행하는데에는 이러한 사실을 몰라도 된다 ^^; ) 1. ubuntu linux VM 을 4대를 띄운다.2. host name 은 각각 vm-cluster-node1 ~ 4 이다.3. network 는 vagrant private network 설정으로 10.211.55.100 ~ 103 으로 잡힌다.4. vm-cluster-node1.. 더보기
1. YARN Scheduler 클러스터 Scheduler 가 갖춰야 할 조건1. Multi-tenency - 자고로 클러스터라 함은 많은 사용자들이 다양한 어플리케이션을 돌리게 마련인데, 클러스터는 이렇게 다양한 workload 를 일제히 돌릴 수 있어야 한다. 2. Scalability마찬가지로 많은 Application 이 돌고 있는 상황에서도 클러스터의 사이즈를 늘릴 수 있어야 한다. 어떠한 부정적인 현상이 발생하지 않은채로! SchedulerYARN 에서의 스케쥴링은 RM 이 클러스터의 리소스를 트래킹하고, 리소스를 필요로 하는 job 에 이를 할당한다. 즉, 스케줄러는 RM 기능의 일부분이고, 어떠한 정책에 의해서 이를 결정하게 된다. YARN 은 이렇게 공통의 리소스를 큐를 이용해서 관리하는데, 큐의 자세한 내용은 다음에 .. 더보기
0. YARN 이란? YARN이란?: Yet Another Resource NegotiatorHadoop Docs : to split up the functionalities of resource management and job scheduling/monitoring into separate daemons클라우데라 : resource management layer for the Apache Hadoop ecosystem호튼웍스 : YARN is the prerequisite for Enterprise Hadoop, providing resource management and a central platform to deliver consistent operations, security, and data governance t.. 더보기