본문 바로가기

0. 딥러닝 기초지식 *** 해당 포스트는 "밑바닥부터 시작하는 딥러닝" 책을 바탕으로 작성되어 있음을 알려드립니다 :)4장. 신경망 학습ㅁ 신경망을 학습하는데 있어 필요한 데이터훈련 데이터 : 훈련하는데 있어 필요한 데이터시험 데이터 : 훈련이 잘 되었는지 측정을 위한 데이터 ( 해당 데이터는 훈련데이터에 포함되어 있어서는 안된다. 왜냐하면 이미 훈련되는데 쓰여진 데이터는 시험을 하기에는 오염되었다고 판단되기 때문이다. )추후에 다시 얘기 되겠지만 이것이 "오버피팅 ( 훈련데이터에만 너무 잘 맞춰진 모델의 문제)" 문제와도 연결된다. ㅁ 손실함수 성능의 "나쁨"을 나타내는 지표로 딥러닝의 목적을 구체화 하면 이 손실함수의 값을 Minimize 하는 것이다. 손실함수를 예시로 하나 들어보면 손글씨를 보고 이 손글씨가 나타내는.. 더보기
3. YARN Resource Manager HA(High Availibility) 2.4 이전 Hadoop 버전에서의 RM SPOF 문제 하둡 2.0으로 올라오면서 가장 큰 변화는 NameNode 의 SPOF 문제를 해결했다는 것이다. RM 역할을 하는 서버가 죽거나 응답이 없으면 YARN 시스템 전체가 뻗어버리는 문제가 있었다는 것이다. 즉, RM의 SPOF 이다. 하지만 2.4부터 RM에도 HA 가 지원되기 시작했다. Design for HAResourceManager 의 HA 는 Active/Standby 의 아키텍처를 가지고 있다( 클라우데라에서 아키텍처라는 표현을 쓰네요;; ㅎㅎ )출처 : http://blog.cloudera.com/blog/2014/05/how-apache-hadoop-yarn-ha-works/ ResourceManager State StoreResourc.. 더보기
2. YARN Application 실행( CDH 를 이용하여 Local에 Spark on YARN 실행해보기 ) 여러대의 Cluster 환경 구축을 위해 Vagrant 를 이용할거고, 기본적으로 YARN을 설치하려면 hdfs 도 깔아줘야 한다. 그래서 cloudera 에서는 이러한 환경을 위해 vagrant image 를 제공해준다. 링크 : Virtual Apache Hadoop Cluster Vagrant 파일을 찬찬히 살펴보면 다음과 같은 내용의 설정이 되어 있다.( 사실 그냥 실행하는데에는 이러한 사실을 몰라도 된다 ^^; ) 1. ubuntu linux VM 을 4대를 띄운다.2. host name 은 각각 vm-cluster-node1 ~ 4 이다.3. network 는 vagrant private network 설정으로 10.211.55.100 ~ 103 으로 잡힌다.4. vm-cluster-node1.. 더보기