Layer Normalization

Summary

이 논문은 배치 정규화(Batch Normalization)의 한계를 극복하기 위해 Layer Normalization을 제안한다. 배치 정규화는 미니배치 내 샘플들의 분포를 활용해 정규화하는 방식이라 배치 크기에 민감하고, 순환 신경망(RNN)에 직접 적용하기 어렵다는 문제가 있었다. Layer Normalization은 이와 달리 단일 훈련 샘플에서 한 레이어 내 모든 뉴런의 입력 합산값으로부터 평균과 분산을 계산해 정규화를 수행한다. 훈련 시와 테스트 시 동일한 연산을 사용하며, 각 타임 스텝마다 독립적으로 통계를 계산할 수 있어 RNN에 자연스럽게 적용된다.

Problem

배치 정규화는 피드포워드 네트워크의 훈련 속도를 크게 높였지만, 두 가지 핵심 한계가 있었다. 첫째, 정규화 통계가 미니배치 크기에 종속되므로 배치가 작을수록 추정이 불안정해진다. 둘째, 각 타임 스텝마다 시퀀스 길이가 달라지고 히든 스테이트가 누적되는 RNN 구조에 적용하는 방식이 명확하지 않았다. 따라서 RNN처럼 가변 길이 시퀀스를 다루거나 배치 크기가 제한된 환경에서도 효과적으로 동작하는 정규화 기법이 필요했다.

Method

Layer Normalization은 배치 차원이 아닌 특징(feature) 차원을 따라 정규화를 수행한다. 단일 훈련 샘플에서 레이어 내 모든 뉴런의 입력 합산값 $a_{i}$ 에 대해 평균 $μ$ 와 분산 $σ^{2}$ 를 계산한다.

μ = \frac{1}{H} i = 1 \sum H a_{i}, σ^{2} = \frac{1}{H} i = 1 \sum H (a_{i} - μ)^{2}

정규화된 값은 $\overset{a}{^}_{i} = (a_{i} - μ) / σ$ 이며, 학습 가능한 스케일 파라미터 $g$ 와 바이어스 $b$ 를 통해 비선형 활성화 전에 복원된다. 배치 정규화와 달리 배치 내 다른 샘플에 의존하지 않으므로, 훈련과 추론 시 동일한 연산 경로를 가지며 RNN의 각 타임 스텝에 그대로 적용할 수 있다.

Results

Order-1 RNN부터 LSTM 변형, Attentive Reader 등 다양한 RNN 아키텍처에서 배치 정규화 및 기타 정규화 기법 대비 훈련 속도가 향상되고 최종 성능도 비슷하거나 개선되었다. 특히 히든 스테이트 다이나믹스를 안정화하는 효과가 두드러졌으며, 언어 모델링, 기계 독해, 문장 수반 등의 태스크에서 기존 기법을 능가하는 결과를 보였다. 피드포워드 네트워크와 생성 모델에서도 경쟁력 있는 성능을 확인했다.

Key Insights

정규화 통계를 배치 차원이 아닌 레이어 내 특징 차원에서 계산한다는 단순한 전환이 RNN 적용성 문제를 근본적으로 해결한다.
훈련-추론 연산 일관성 덕분에 별도의 추론 시 이동 평균 관리가 불필요해져 구현이 간단해진다.
이후 Transformer 아키텍처의 핵심 구성 요소로 자리 잡아 GPT, BERT 등 현대 대규모 언어 모델의 표준 정규화 기법이 되었다.
배치 크기 1에서도 동작하므로 온라인 학습이나 강화학습처럼 배치 구성이 어려운 환경에서 유용하다.

Limitations