[WEEK02-DAY1] 최소 제곱법과 닫힌 형식 솔루션

2024. 8. 19. 12:42Machine Learning/[TIL] Naver Boost Camp

닫힌 형식 솔루션

closed-form solution = Analytic Solution

이미 확립된 해법을 이용하여 해석적으로 정확한 해를 구하는 방법.

라그랑주의 ‘해석적’에 대한 제안에 따르면, 모든 함수를 무한번 미분가능하고, 멱급수로 전개 가능하다고 가정하였따. 이러한 특징을 갖는 함수를 오늘날 해석함수라고 부른다.


만일, 어떤 미분방적식의 솔루션이 해석적이라고 한다면,

그 미분방적식을 만족하는 ‘구체적인 함수’를 제시할 수 있어야한다.

이 때의 솔루션을 닫힌 형태의 솔루션이라고 한다.

닫힌 형태란 삼각함수, 지수함수, 합성함수 등의 초등함수 또는 잘 알려진 함수로 표현할 수 있다는 의미를 갖는, 비형식적 용어이다.

[정보통신기술용어해설] 해석학

선형회귀의 맥락에서 닫힌 형식 솔루션은 주어진 입력 데이터와 출력 데이터 사의 최적의 직선을 찾는 가중치 벡터를 계산하는데 사용한다.

최소제곱법(Ordinary Least Squares, OLS)

선형 회귀에서 닫힌 형식 솔루션을 구하는 방법 중 하나.

OLS는 예측된 값 $\hat{y} = Xw$와 실제 값 y 사이의 차이(잔차)를 최소화하는 가중치 벡터 $w$를 찾는 방법.

잔차를 최소화하기 위해 잔차 제곱합을 사용한다.

손실함수 L(w)은 아래와 같이 정의된다.

$$
L(w) = ||y-Xw||^2 = (y - Xw)^T(y - Xw)
$$

벡터의 유클리드 노름

벡터v의 유클리드 노름 $||v||$은 벡터이 각 성분의 제곱을 더한 뒤 그 합의 제곱근을 구하는 것이다.

예를 들어, 벡터 $v=[v_1,v_2,\cdots,v_n]^T$의 유클리드 노름은 다음과 같이 정의된다.

$$
|\mathbf{v}| = \sqrt{v_1^2 + v_2^2 + \cdots + v_n^2}
$$

노름의 제곱

유클리드 노름의 제곱 $||v||^2$은 각 성분의 제곱을 더한 값, 즉:

$$
|\mathbf{v}|^2 = v_1^2 + v_2^2 + \cdots + v_n^2
$$

이것은 벡터 v와 자기 자신과의 내적(행렬 곱)으로 표현될 수 있다.

$$
|\mathbf{v}|^2 = \mathbf{v}^T \mathbf{v}
$$

닫힌 형식 솔루션 유도하는 방법은 다음과 같다.

손실함수미분: 손실 함수 L(w)를 가중치 벡터 $w$에 대해 미분

$$
\frac{\partial L(w)}{\partial w} = -2X^T(y - Xw)
$$

  1. 손실함수 전개위 식은 전개하면,위 식에서 두 번째 항과 세 번째 항은 서로 전치 관계에 있다. $y^TXw$와 $w^T X^T y$는 모두 스칼라 값이므로 서로 동일하다. 따라서 두 항을 하나로 묶을 수 있다:
  2. $$
    L(w) = y^T y - 2y^T Xw + w^T X^T Xw
    $$
  3. $$
    L(w) = y^T y - y^T Xw - w^T X^T y + w^T X^T Xw
    $$
  4. $$
    L(w) = (y - Xw)^T(y - Xw)
    $$
  1. 손실함수 $L(w)$를 $w$에 대해 미분$$
    \frac{\partial}{\partial w} (w^T A w) = 2A w
    $$이차 형식은 벡터 w의 전치와 행렬 A를 곱한 후 다시 벡터 w를 곱한 형태: $w^T A w$이 규칙은 A가 대칭 행렬일 때 적용된다. $A=A^T$이므로, 미분 결과는 $2Aw$로 단순화된다.$$
    \frac{\partial}{\partial w} (b^T w) = b
    $$$w$의 각 성분에 대한 편미분은 해당 성분에 대응하는 $b$의 성분이 된다.$$
    \frac{\partial}{\partial w} \left(-2y^T X w\right) = -2X^T y
    $$
  2. $$
    \frac{\partial}{\partial w} \left( w^T X^T X w \right) = 2X^T X w
    $$
  3. 각 항의 미분
  4. 이 규칙은 벡터 $w$와 벡터 $b$의 내적에 대한 미분을 나타낸다.여기서 $b^Tw$는 $w$와 $b$의 내적(스칼라 값)이다. 이 식을 벡터 $w$에 대해 미분하면, 결과는 벡터 $b$ 그 자체가 된다.
  5. 미분규칙 2:
  6. 이 식을 벡터 w에 대해 미분하면, 결과는 2Aw.
  7. 이 규칙은 이차 형식에 대한 미분을 나타냅니다. 여기서 w는 벡터, A는 대칭 행렬이다.
  8. 미분규칙 1:
  9. 전체 미분 결과$$
    \frac{\partial L(w)}{\partial w} = -2X^T y + 2X^T X w
    $$$$
    \frac{\partial L(w)}{\partial w} = -2X^T(y - Xw)
    $$
  10. 이 식을 정리하면:
  11. 위에서 계산한 각 항의 미분을 합치면 다음과 같다:
  12. 최적의 $w$$$
    X^T X w = X^T y
    $$
  13. $$
    w = \left(X^T X\right)^{-1} X^T y
    $$
  14. 미분 결과를 0으로 설정하면, 최적의 w를 찾는 방정식을 얻을 수 있다.