본문 바로가기

[부록] scala-spark-big-data with coursera Scala - Basics of Functional Programming - Parallelism Spark - Not a machine learning or data science course! - distributed data parallelism in Spark - familiar funcitonal abstractions like functional lists over large clusters. - Context: analyzing large data sets. Why Scala? Why Spark?Normally - R / Python / MATLAB etc..But!If your data set ever gets too large to fit into memory?there is also t.. 더보기
1. YARN Scheduler 클러스터 Scheduler 가 갖춰야 할 조건1. Multi-tenency - 자고로 클러스터라 함은 많은 사용자들이 다양한 어플리케이션을 돌리게 마련인데, 클러스터는 이렇게 다양한 workload 를 일제히 돌릴 수 있어야 한다. 2. Scalability마찬가지로 많은 Application 이 돌고 있는 상황에서도 클러스터의 사이즈를 늘릴 수 있어야 한다. 어떠한 부정적인 현상이 발생하지 않은채로! SchedulerYARN 에서의 스케쥴링은 RM 이 클러스터의 리소스를 트래킹하고, 리소스를 필요로 하는 job 에 이를 할당한다. 즉, 스케줄러는 RM 기능의 일부분이고, 어떠한 정책에 의해서 이를 결정하게 된다. YARN 은 이렇게 공통의 리소스를 큐를 이용해서 관리하는데, 큐의 자세한 내용은 다음에 .. 더보기
0. YARN 이란? YARN이란?: Yet Another Resource NegotiatorHadoop Docs : to split up the functionalities of resource management and job scheduling/monitoring into separate daemons클라우데라 : resource management layer for the Apache Hadoop ecosystem호튼웍스 : YARN is the prerequisite for Enterprise Hadoop, providing resource management and a central platform to deliver consistent operations, security, and data governance t.. 더보기