본문 바로가기

3. CNN ㅁFully connected layer 의 문제점 - 데이터의 형상이 무시된다. - 예를 들어 256 * 256 이미지 데이터 n개가 있다고 가정해보자. 지금까지 우리가 배운것에 의하면 이것을 행렬로 바꿔서 256*256 = 65,536 의 col 을 가지고 n개의 row 가진 Matrix 를 가질것이고 여기에 W1, W2 ... 등을 곱해서 마지막에 classification 하는 Network Layer 를 구성할 것이다. 하지만 여기에선 간과 된것이 이미지라 함은 픽셀로 부터 좌우 뿐 아니라 상하의 데이터도 관계가 있는 것인데 이를 고려하지 않은 것이다. 즉 위에서 정리한 것과 같이 데이터의 형상을 무시한것이다. - 그래서 CNN 레이어는 중간에는 Convolution layer 와 max poo.. 더보기
2. 학습관련 기술들 매개변수 갱신 방법ㅁ SGD ( Stochastic Gradient Descent ) SGD 는 손실함수의 기울기 값 ( Weight's Gradient ) 를 구하고 New Weight = Weight - lr * ( Weight's Gradient ) 를 해주는 것입니다. ( 여기서 lr 이란 learning rate 의 약자입니다. ) 보통 설명할 때 언덕에서 각 방향으로 한발짝씩 내 딛어 보고 줄어드는 쪽으로 계속 걸어간다라는 비유를 많이 하죠 :) ㅁ 모멘텀 ( Momentum )Momentum 방식은 말 그대로 Gradient Descent를 통해 이동하는 과정에 일종의 ‘관성’을 주는 것이다. 현재 Gradient를 통해 이동하는 방향과는 별개로, 과거에 이동했던 방식을 기억하면서 그 방향으.. 더보기
1. 오차역전파법 ( Backpropagation ) 이전 포스트에서 W 값의 변화에 따른 손실함수 ( Loss Function )의 기울기를 구하고, 그에 따라 손실함수를 Minimize 하는 W 를 찾는 법을 보았습니다. 사실 쫌 더 구체적으로 설명하자면 손실함수를 구하고, 그 손실함수의기울기를 구하는데 있어 ( 미분값을 구하는데 있어 or Gradient 값을 구하는데 있어 ) 수치 미분법을 이용해서 손실함수를 최소화 시키는 방법을 알아보았습니다. 그럼 이번에는 "오차역전파법". 그 유명한 BackPropagation 을 통해 손실함수를 최소화 시키는 W 를 어떻게 찾아보는지 한번 보도록 하겠습니다. 이 글에서는 backpropagation 의 역사, 기존에 있었던 문제들( Layer 를 깊게 쌓았을 때 역전파가 안되었던건 현상들... ) 에 대해서는.. 더보기