2024. 8. 19. 12:44ㆍMachine Learning/[TIL] Naver Boost Camp
Zero-Centered Output
"Zero-centered"란 데이터의 평균이나 중간값이 0에 가까운 상태를 의미한다. 즉, 출력이 0을 기준으로 양쪽으로 대칭적으로 분포되는 경우이다. 예를 들어, 출력값이 -1과 1 사이에서 대칭적으로 분포한다면, 이는 zero-centered output이다.
Not Zero-Centered Output
반대로, "Not zero-centered"는 출력값이 0을 중심으로 대칭적이지 않은 경우를 말한다. 예를 들어, 모든 출력값이 0보다 크거나, 혹은 특정 범위에서만 존재하는 경우이다. 예를 들어, ReLU 활성화 함수의 출력은 0 또는 양수만을 반환하므로 not zero-centered output에 해당한다.
딥러닝에서의 영향
Gradient Descent:
딥러닝 모델에서 출력이 zero-centered가 아닌 경우, 특히 Gradient Descent와 같은 최적화 방법에서 문제가 발생할 수 있다. 예를 들어, 신경망의 각 층에서의 출력이 zero-centered가 아니면, 파라미터의 업데이트 방향이 한쪽으로 편향될 수 있어 학습이 비효율적으로 이루어질 수 있다.
활성화 함수:
예를 들어, ReLU (Rectified Linear Unit)와 같은 활성화 함수는 non-zero-centered output을 생성한다. 이로 인해 특정 층의 출력이 모두 양수로 쏠릴 수 있다. 이 경우, 모델의 가중치가 불균형하게 업데이트될 수 있으며, 이는 학습의 불안정성을 초래할 수 있다.
반면에, Tanh 활성화 함수는 zero-centered output을 생성하여 이러한 문제를 완화할 수 있다.
Batch Normalization:
이러한 문제를 해결하기 위해 batch normalization과 같은 기법을 사용할 수 있다. 이 기법은 각 배치에서 출력값을 정규화하여 평균이 0이 되도록 조정해 준다. 이를 통해 신경망의 학습이 보다 안정적이고 빠르게 이루어질 수 있다.
'Machine Learning > [TIL] Naver Boost Camp' 카테고리의 다른 글
[WEEK02-DAY2] weight initalization (0) | 2024.08.19 |
---|---|
[WEEK02-DAY2] 역전파의 전체 과정 (0) | 2024.08.19 |
[WEEK02-DAY1] 최소 제곱법과 닫힌 형식 솔루션 (0) | 2024.08.19 |
[WEEK02-DAY1] 선형 회귀 방정식 (0) | 2024.08.19 |
[WEEK01-DAY4] 이진 교차 엔트로피 (0) | 2024.08.14 |