Machine Learning/[TIL] Naver Boost Camp(9)
-
Attention
[딥러닝을 이용한 자연어 처리 입문 15-01 어텐션 메커니즘]을 정리한 내용입니다.Attention 메커니즘Attention(Q,K,V) = Attentionvalue어텐션 함수는 주어진 Query에 대해 모든 Key의 유사도를 각각 구한다. 그리고 이 유사도를 key와 매핑되어있는 각각의 값(value)에 반영해준다. 유사도가 반영된 값(value)을 모두 더해서 리턴하고, attention value를 반환한다.Dot-Product AttentionSeq2Seq에 Attention 기법을 적용한 예시인 바다나우 어텐션의 기본 형태. Attention value a_t를 구하는 방법은 다음과 같다.Attention Score(e_t)를 구한다.encoder의 시점(time step)을 각각 $1,2,..
2024.09.04 -
[WEEK02-DAY2] weight initalization
what happens when $W=0$ init is used?대칭성 문제: 모든 가중치를 0으로 초기화하면, 같은 층의 모든 뉴런들이 동일한 그래디언트를 받게 된다. 그 결과, 모든 뉴런이 동일한 방식으로 업데이트되고, 동일한 출력을 생성하게 된다. 이렇게 되면 뉴런들이 서로 다른 특성을 학습할 수 없게 되며, 각 뉴런의 역할이 중복된다.그래디언트 전파 불가: 가중치가 0으로 초기화된 경우, 사용된 활성화 함수에 따라 역전파 과정에서 계산되는 그래디언트가 0이 될 수 있다.First idea: Small Gaussian Random (평균이 0이고, 표준편차가 0.01인 정규분포=대부분 0 근처에 분포한다는 의미) $W = 0.01 * np.random.randn(D,H)$ $tanh$함수의 입력값..
2024.08.19 -
[WEEK02-DAY2] 역전파의 전체 과정
하나의 은닉층과 하나의 출력층을 가지고 있다.입력 $x$는 은닉층으로 전달된다.은닉층에서 가중치 $W1$과 시그모이드 활성화 함수 $σ$를 통해 출력 $h = \sigma(W_1 \cdot x)$가 계산된다.은닉층 출력 $h$는 출력층에서 또 다른 가중치 W_2와 곱해져 최종 출력 $\hat{y}$가 계산된다.손실함수는 $L = (\hat{y}-y)^2$로 정의된다.우리는 이 손실을 최소화하기 위해 $W_1$의 가중치를 조정해야한다.chain-rule의 적용 $$ \frac{\partial \mathcal{L}}{\partial W_1} = \frac{\partial \mathcal{L}}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial h} \cdo..
2024.08.19 -
[WEEK02-DAY2] Zero-Centered Output
Zero-Centered Output"Zero-centered"란 데이터의 평균이나 중간값이 0에 가까운 상태를 의미한다. 즉, 출력이 0을 기준으로 양쪽으로 대칭적으로 분포되는 경우이다. 예를 들어, 출력값이 -1과 1 사이에서 대칭적으로 분포한다면, 이는 zero-centered output이다.Not Zero-Centered Output반대로, "Not zero-centered"는 출력값이 0을 중심으로 대칭적이지 않은 경우를 말한다. 예를 들어, 모든 출력값이 0보다 크거나, 혹은 특정 범위에서만 존재하는 경우이다. 예를 들어, ReLU 활성화 함수의 출력은 0 또는 양수만을 반환하므로 not zero-centered output에 해당한다.딥러닝에서의 영향Gradient Descent:딥러닝 모..
2024.08.19 -
[WEEK02-DAY1] 최소 제곱법과 닫힌 형식 솔루션
닫힌 형식 솔루션closed-form solution = Analytic Solution이미 확립된 해법을 이용하여 해석적으로 정확한 해를 구하는 방법.라그랑주의 ‘해석적’에 대한 제안에 따르면, 모든 함수를 무한번 미분가능하고, 멱급수로 전개 가능하다고 가정하였따. 이러한 특징을 갖는 함수를 오늘날 해석함수라고 부른다.만일, 어떤 미분방적식의 솔루션이 해석적이라고 한다면,그 미분방적식을 만족하는 ‘구체적인 함수’를 제시할 수 있어야한다.이 때의 솔루션을 닫힌 형태의 솔루션이라고 한다.닫힌 형태란 삼각함수, 지수함수, 합성함수 등의 초등함수 또는 잘 알려진 함수로 표현할 수 있다는 의미를 갖는, 비형식적 용어이다.[정보통신기술용어해설] 해석학선형회귀의 맥락에서 닫힌 형식 솔루션은 주어진 입력 데이터와 출..
2024.08.19 -
[WEEK02-DAY1] 선형 회귀 방정식
선형 회귀 방정식$$ y = w_0 + w_1x_1 + w_2x_2 + \cdots + w_nx_n $$y는 예측값(종속변수), $w_0$는 절편(bias), $w_1,w_2,\cdots,w_n$는 각 독립변수 $x_1,x_2,\cdots,x_n$의 가중치이다. 데이터 행렬 X:$$ \mathbf{X} =\begin{bmatrix}1 & x_{11} & x_{12} & \cdots & x_{1n} \\1 & x_{21} & x_{22} & \cdots & x_{2n} \\\vdots & \vdots & \vdots & \ddots & \vdots \\1 & x_{m1} & x_{m2} & \cdots & x_{mn}\end{bmatrix} $$첫 번째 열의 모든 값이 1로 채워져있다. 이 열은 절편 w_..
2024.08.19