그림으로 먼저 읽는 Transformer: Attention Is All You Need
이 논문의 핵심은 번역 같은 순서 변환 문제에서 RNN이나 CNN의 순차 계산을 버리고, 토큰들이 서로를 직접 바라보는 self-attention을 여러 머리로 병렬 실행해 빠르고 성능 좋은 encoder-decoder를 만든다는 것입니다.
배경 개념: 왜 이 문제가 어려웠나
순서 변환 문제
기계번역처럼 입력 문장을 다른 출력 문장으로 바꾸려면, 앞뒤 단어의 관계와 긴 거리 의존성을 함께 다뤄야 합니다. 논문은 기존 강한 모델들이 encoder-decoder와 attention을 사용했다고 설명합니다. Page 1 Abstract
RNN의 병목
Recurrent 모델은 위치를 시간 단계에 맞춰 차례대로 계산하므로 한 예제 안에서 병렬화가 어렵고, 긴 문장에서는 이 제약이 중요해집니다. Page 2 Introduction
Transformer의 대담한 선택
논문은 recurrence와 convolution을 완전히 없애고 attention mechanism만으로 모델을 구성한다고 말합니다. Page 1 Abstract
순서를 잃지 않는 장치
attention만 쓰면 순서 정보가 자동으로 들어오지 않으므로 embedding에 positional encoding을 더합니다. 논문은 sine과 cosine 함수를 사용합니다. Page 6 Section 3.5
핵심 흐름: Transformer가 정보를 읽고 쓰는 방식
- 입력 토큰을 벡터로 바꾸고 위치를 더한다. 모든 sub-layer와 embedding은 dmodel=512 차원을 사용한다고 설명됩니다. Page 3
- Encoder는 같은 층을 6번 쌓는다. 각 층은 multi-head self-attention과 position-wise feed-forward network로 구성되고, 각 sub-layer 주변에 residual connection과 layer normalization을 둡니다. Page 3
- Self-attention은 문장 안 모든 위치가 서로를 직접 참고하게 한다. 논문은 encoder self-attention에서 query, key, value가 같은 위치 집합에서 온다고 설명합니다. Page 5
- Decoder는 미래 단어를 못 보게 막는다. decoder self-attention은 이후 위치를 attend하지 못하도록 수정됩니다. Page 3
- Decoder는 encoder 출력도 본다. encoder-decoder attention에서 query는 decoder 이전 층에서, key와 value는 encoder 출력에서 오며, decoder의 모든 위치가 입력 전체를 볼 수 있게 합니다. Page 5
Multi-head attention을 쉬운 말로
한 개의 attention만 쓰면 여러 관계가 평균처럼 섞일 수 있습니다. 논문은 multi-head attention이 서로 다른 representation subspace와 위치의 정보를 함께 attend하게 해준다고 설명합니다. 이 논문 설정에서는 h=8 heads, 각 head의 dk=dv=64를 사용합니다. Page 5
머리 1: 가까운 단어 관계
추정 실제 head별 의미는 항상 이렇게 고정되지 않습니다. 쉬운 이해를 위한 예시입니다.
머리 2: 긴 거리 관계
추정 논문은 self-attention의 최대 경로 길이가 O(1)임을 표로 제시하지만, 특정 head가 어떤 문법 역할을 맡는지는 제공 source pack만으로 확정하지 않습니다.
실험 지도: 왜 설득력이 있었나
논문은 WMT 2014 English-to-German과 English-to-French 번역에서 Transformer가 이전 모델보다 좋은 BLEU와 낮은 훈련 비용을 보였다고 제시합니다. big model은 EN-DE에서 28.4 BLEU, EN-FR에서 41.8 BLEU를 기록합니다. Page 1 Abstract Page 8 Table 2
또한 Table 1은 self-attention이 layer당 sequential operations O(1), maximum path length O(1)임을 recurrent의 O(n)과 대비합니다. 이것이 병렬화 장점의 핵심 근거입니다. Page 6 Table 1
소스 근거와 표시 규칙
- 초록 근거 Transformer는 recurrence와 convolution 없이 attention만으로 구성된 architecture입니다. 근거: Page 1 Abstract.
- 본문 근거 Encoder와 decoder는 각각 N=6 identical layers를 쌓고, residual connection과 layer normalization을 사용합니다. 근거: Page 3 Method.
- 본문 근거 Scaled dot-product attention 식은 Attention(Q,K,V)=softmax(QKᵀ/√dₖ)V입니다. 근거: Page 4 Equation (1).
- 본문 근거 Multi-head attention은 h=8 heads, dk=dv=64 설정을 사용합니다. 근거: Page 5 Method.
- 본문 근거 Positional encoding은 순서 정보를 넣기 위한 장치이며 sine/cosine 함수를 사용합니다. 근거: Page 6 Section 3.5.
- 본문 확인 필요 제공 source pack은 PDF 텍스트 추출 기반이며 수식, 표, 그림 이미지는 별도 검증하지 않았다는 caveat가 있습니다. 따라서 Figure 1과 Figure 2의 정확한 시각 배치는 source pack 텍스트 설명 범위 안에서만 재구성했습니다.
주의할 점
- 이 리포트의 도식은 논문 Figure 1과 Figure 2의 교육용 재구성입니다. 원 그림의 모든 세부 배치를 그대로 복제한 것이 아닙니다.
- source pack caveat: PDF 텍스트 추출 기반 source pack입니다. 수식, 표, 그림 이미지는 아직 별도로 검증하지 않습니다.
- PDF 본문 전체 section 검증은 아직 보류 중입니다.
- head별 역할 예시는 이해를 위한 추정이며, 제공 근거만으로 특정 head의 의미를 확정하지 않습니다.
읽는 순서와 행동
- 먼저 읽기: Page 1 Abstract에서 논문의 주장 세 가지를 표시하세요: attention-only, 병렬화, BLEU 성능.
- 구조 잡기: Page 3 Figure 1 설명과 encoder/decoder stack 문단을 읽고, 위 도식에서 encoder와 decoder 상자를 다시 확인하세요.
- 수식 가볍게 읽기: Page 4 Equation (1)을 Q, K, V 역할로만 해석하세요. 처음에는 미분이나 구현 세부보다 가중합 직관이 중요합니다.
- 비교 근거 확인: Page 6 Table 1에서 sequential operations와 maximum path length만 비교하세요.
- 결과 검증: Page 8 Table 2에서 BLEU와 training cost가 논문 주장과 어떻게 연결되는지 확인하세요.