Adventure Time - Finn 3
본문 바로가기
AI/ML

트랜스포머 - 잔차 연결(Residual connection)과 층 정규화(Layer Normalization)

by hyun9_9 2026. 4. 28.

앞서, 인코더의 두 개의 서브층에 대해서 이해해보았다

트랜스포머에서는 이러한 두개의 서브층을 가진 인코더에 추가적으로 사용하는 기법이 있다

  • 바로 Add & Norm입니다. 더 정확히는 잔차 연결(residual connection)과 층 정규화(layer normalization)를 의미합니다.

추가된 화살표들은 서브층 이전의 입력에서 시작되어 서브층의 출력 부분을 향하고 있다

1) 잔차 연결 (Residual connection)

위 그림은 입력 x와 x에 대한 어떤 함수 F(x)의 값을 더한  H(x)의 구조를 보여준다

어떤 함수 F(x)가 트랜스포머에서는 서브층에 해당된다. 다시 말해 잔차연결은 서브층의 입력돠 출력을 더하는것을 말한다

앞서 언급했듯이 트랜스포머에서 서브층의 입력과 출력은 동일한 차원을 갖고 있으므로 서브층의 입력과 서브층의 출력은 덧셈 연산을 할 수 있다.

2) 층 정규화(Layer Normalization)

첫번째는 평균과 분산을 통한 정규화

두번째는 감마와 베타를 도입하는것

우선 평균과 분산을 통해 xi 를 정규화 해준다

  • xi는 벡터인 반면, 평균 μi 과 분산 σ2i은 스칼라입니다.
  • 벡터 xi의 각 차원을 k라고 하였을 때, xik는 다음의 수식과 같이 정규화 할 수 있습니다.
  • 다시 말해 벡터 xi의 각 k차원의 값이 다음과 같이 정규화 되는 것입니다.

 

x^ik=xi,kμiσ2i+ϵ
  • ϵ (입실론)은 분모가 0이 되는 것을 방지하는 값.
  • 이제 γ (감마)와 β(베타)라는 벡터를 준비합니다. 단, 이들의 초기값은 각각 1과 0입니다.
  • γ β 를 도입한 층 정규화의 최종 수식은 다음과 같으며 γ  β 는 학습 가능한 파라미터입니다.

 

lni=γx^i+β=LayerNorm(xi)