공개 논문 리포트

그림으로 먼저 읽는 Transformer: Attention Is All You Need

1706.03762 도식 리포트 쉽게 이해하기

그림으로 먼저 읽는 Transformer: Attention Is All You Need

이 논문의 핵심은 번역 같은 순서 변환 문제에서 RNN이나 CNN의 순차 계산을 버리고, 토큰들이 서로를 직접 바라보는 self-attention을 여러 머리로 병렬 실행해 빠르고 성능 좋은 encoder-decoder를 만든다는 것입니다.

논문: Attention Is All You Need읽기 수준: Easy형식: Diagram근거: 제공 source pack의 Page 1-8
Transformer 쉬운 구조도: 실제 논문 Figure 1, Figure 2, Equation (1), Table 1-2에 근거한 학습용 도식
입력 문장 토큰예: 번역할 문장Embedding + 위치 인코딩순서 정보를 더함Encoder stack × 6Multi-head self-attentionFeed-forward network잔차 연결 + LayerNorm문맥 기억encoder 출력이전 출력 토큰decoder 입력Masked self-attention미래 단어 보기 금지Decoder stack × 6encoder-decoder attentionFeed-forward network잔차 연결 + LayerNorm다음 단어 확률번역 생성Attention 한 줄 직관: 질문 Query가 단서 Key와 얼마나 맞는지 계산하고, 맞는 만큼 정보 Value를 섞는다Attention(Q,K,V)=softmax(QKᵀ/√dₖ)V — Page 4, Equation (1)

배경 개념: 왜 이 문제가 어려웠나

순서 변환 문제

기계번역처럼 입력 문장을 다른 출력 문장으로 바꾸려면, 앞뒤 단어의 관계와 긴 거리 의존성을 함께 다뤄야 합니다. 논문은 기존 강한 모델들이 encoder-decoder와 attention을 사용했다고 설명합니다. Page 1 Abstract

RNN의 병목

Recurrent 모델은 위치를 시간 단계에 맞춰 차례대로 계산하므로 한 예제 안에서 병렬화가 어렵고, 긴 문장에서는 이 제약이 중요해집니다. Page 2 Introduction

Transformer의 대담한 선택

논문은 recurrence와 convolution을 완전히 없애고 attention mechanism만으로 모델을 구성한다고 말합니다. Page 1 Abstract

순서를 잃지 않는 장치

attention만 쓰면 순서 정보가 자동으로 들어오지 않으므로 embedding에 positional encoding을 더합니다. 논문은 sine과 cosine 함수를 사용합니다. Page 6 Section 3.5

핵심 흐름: Transformer가 정보를 읽고 쓰는 방식

  1. 입력 토큰을 벡터로 바꾸고 위치를 더한다. 모든 sub-layer와 embedding은 dmodel=512 차원을 사용한다고 설명됩니다. Page 3
  2. Encoder는 같은 층을 6번 쌓는다. 각 층은 multi-head self-attention과 position-wise feed-forward network로 구성되고, 각 sub-layer 주변에 residual connection과 layer normalization을 둡니다. Page 3
  3. Self-attention은 문장 안 모든 위치가 서로를 직접 참고하게 한다. 논문은 encoder self-attention에서 query, key, value가 같은 위치 집합에서 온다고 설명합니다. Page 5
  4. Decoder는 미래 단어를 못 보게 막는다. decoder self-attention은 이후 위치를 attend하지 못하도록 수정됩니다. Page 3
  5. Decoder는 encoder 출력도 본다. encoder-decoder attention에서 query는 decoder 이전 층에서, key와 value는 encoder 출력에서 오며, decoder의 모든 위치가 입력 전체를 볼 수 있게 합니다. Page 5
쉬운 식 해석: 점수 = Q와 K의 dot product → √dₖ로 스케일 → softmax로 가중치 → V를 가중합

Multi-head attention을 쉬운 말로

한 개의 attention만 쓰면 여러 관계가 평균처럼 섞일 수 있습니다. 논문은 multi-head attention이 서로 다른 representation subspace와 위치의 정보를 함께 attend하게 해준다고 설명합니다. 이 논문 설정에서는 h=8 heads, 각 head의 dk=dv=64를 사용합니다. Page 5

머리 1: 가까운 단어 관계

추정 실제 head별 의미는 항상 이렇게 고정되지 않습니다. 쉬운 이해를 위한 예시입니다.

머리 2: 긴 거리 관계

추정 논문은 self-attention의 최대 경로 길이가 O(1)임을 표로 제시하지만, 특정 head가 어떤 문법 역할을 맡는지는 제공 source pack만으로 확정하지 않습니다.

실험 지도: 왜 설득력이 있었나

논문은 WMT 2014 English-to-German과 English-to-French 번역에서 Transformer가 이전 모델보다 좋은 BLEU와 낮은 훈련 비용을 보였다고 제시합니다. big model은 EN-DE에서 28.4 BLEU, EN-FR에서 41.8 BLEU를 기록합니다. Page 1 Abstract Page 8 Table 2

또한 Table 1은 self-attention이 layer당 sequential operations O(1), maximum path length O(1)임을 recurrent의 O(n)과 대비합니다. 이것이 병렬화 장점의 핵심 근거입니다. Page 6 Table 1

소스 근거와 표시 규칙

  • 초록 근거 Transformer는 recurrence와 convolution 없이 attention만으로 구성된 architecture입니다. 근거: Page 1 Abstract.
  • 본문 근거 Encoder와 decoder는 각각 N=6 identical layers를 쌓고, residual connection과 layer normalization을 사용합니다. 근거: Page 3 Method.
  • 본문 근거 Scaled dot-product attention 식은 Attention(Q,K,V)=softmax(QKᵀ/√dₖ)V입니다. 근거: Page 4 Equation (1).
  • 본문 근거 Multi-head attention은 h=8 heads, dk=dv=64 설정을 사용합니다. 근거: Page 5 Method.
  • 본문 근거 Positional encoding은 순서 정보를 넣기 위한 장치이며 sine/cosine 함수를 사용합니다. 근거: Page 6 Section 3.5.
  • 본문 확인 필요 제공 source pack은 PDF 텍스트 추출 기반이며 수식, 표, 그림 이미지는 별도 검증하지 않았다는 caveat가 있습니다. 따라서 Figure 1과 Figure 2의 정확한 시각 배치는 source pack 텍스트 설명 범위 안에서만 재구성했습니다.

주의할 점

  • 이 리포트의 도식은 논문 Figure 1과 Figure 2의 교육용 재구성입니다. 원 그림의 모든 세부 배치를 그대로 복제한 것이 아닙니다.
  • source pack caveat: PDF 텍스트 추출 기반 source pack입니다. 수식, 표, 그림 이미지는 아직 별도로 검증하지 않습니다.
  • PDF 본문 전체 section 검증은 아직 보류 중입니다.
  • head별 역할 예시는 이해를 위한 추정이며, 제공 근거만으로 특정 head의 의미를 확정하지 않습니다.

읽는 순서와 행동

  1. 먼저 읽기: Page 1 Abstract에서 논문의 주장 세 가지를 표시하세요: attention-only, 병렬화, BLEU 성능.
  2. 구조 잡기: Page 3 Figure 1 설명과 encoder/decoder stack 문단을 읽고, 위 도식에서 encoder와 decoder 상자를 다시 확인하세요.
  3. 수식 가볍게 읽기: Page 4 Equation (1)을 Q, K, V 역할로만 해석하세요. 처음에는 미분이나 구현 세부보다 가중합 직관이 중요합니다.
  4. 비교 근거 확인: Page 6 Table 1에서 sequential operations와 maximum path length만 비교하세요.
  5. 결과 검증: Page 8 Table 2에서 BLEU와 training cost가 논문 주장과 어떻게 연결되는지 확인하세요.

다음에 읽을 논문 또는 방향

  • RNN/LSTM/GRU 계열 복습: 이 논문은 recurrent neural networks, LSTM, gated recurrent networks를 기존 강한 접근으로 설명합니다. Transformer가 무엇을 버렸는지 이해하려면 해당 계열의 encoder-decoder 번역 논문을 먼저 비교해 보세요. Page 2 Introduction
  • Attention 기반 seq2seq 계열: 논문은 기존 encoder-decoder attention mechanisms를 Transformer의 encoder-decoder attention과 연결해 설명합니다. 다음 읽기는 attention이 RNN 위에서 어떻게 쓰였는지 보는 방향이 좋습니다. Page 5
  • Convolutional sequence model 계열: Table 1과 Table 2에서 convolutional model과 Transformer를 비교하므로, ConvS2S나 ByteNet 같은 convolution 기반 번역 모델을 읽으면 self-attention의 장단점이 더 선명해집니다. Page 6 Table 1 Page 8 Table 2
  • 긴 시퀀스 attention 효율화: 논문은 매우 긴 sequence에서는 restricted self-attention 같은 방향을 future work로 언급합니다. 이후 논문은 long-sequence Transformer 효율화 계열을 찾아 읽는 것이 자연스럽습니다. Page 7
  • 구체적 후속 논문명: 제공 source pack만으로 특정 현대 논문을 검증 추천하는 것은 제한적이므로, 정확한 제목 추천은 추정으로 남깁니다.