공개 논문 리포트

DDPM 쉽게 읽기: 노이즈를 거꾸로 걷어내는 이미지 생성 모델

2006.11239 도식 리포트 쉽게 이해하기

Easy Diagram Report · Denoising Diffusion Probabilistic Models

DDPM 쉽게 읽기: 노이즈를 거꾸로 걷어내 이미지 만들기

이 논문의 핵심은 깨끗한 이미지 x0에 조금씩 가우시안 노이즈를 더해 xT로 보내는 과정을 먼저 정해 두고, 신경망이 그 반대 방향에서 각 단계의 노이즈 ε를 예측해 제거하도록 학습시키는 것입니다. 이렇게 하면 이미지 생성은 “무작위 노이즈에서 시작해 1000번 안팎의 작은 복원 단계를 밟는 절차”로 이해할 수 있습니다.

근거: Abstract, Page 3–8난이도: 배경은 쉬움, 수식 연결은 중간핵심 표: Table 1, Table 2핵심 알고리즘: Algorithm 1, 2
DDPM 방법 도식: 노이즈를 넣는 길과 걷어내는 길
깨끗한 이미지 x0데이터에서 샘플중간 노이즈 xtt단계만큼 흐려짐거의 순수 노이즈 xTN(0, I)에 가까움βt로 조금씩 노이즈 추가여러 단계 반복샘플링 시작xT ∼ N(0, I)신경망 εθ(xt,t)들어간 노이즈 예측생성된 이미지 x0반복 제거 결과Algorithm 2의 역방향 한 스텝노이즈를 조금 덜어냄학습 목표실제 ε와 예측 εθ의차이를 줄임Lsimple: ||ε−εθ||²Page 4, Eq. 12; Page 5, Eq. 14왜 어려운가?한 번에 이미지를 만들지 않고 수많은 작은 확률적 복원 단계를 맞춰야 하며, 품질과 계산 시간·목적함수 선택이 얽혀 있습니다.근거: Algorithm 1–2, Table 2, Page 7 rate-distortion 설명
실선 근거: Page 4의 Algorithm 1·2와 Eq. 11–14가 “ε 예측으로 역방향 평균을 구성하고 샘플링한다”는 흐름을 제공합니다. 도식의 교육용 배치는 설명을 위한 재구성입니다.

배경 개념: 먼저 알아야 할 말

Diffusion probabilistic model

이미지를 직접 한 번에 생성하지 않고, 잠재변수 사슬처럼 여러 단계의 노이즈 상태를 거쳐 생성하는 모델입니다. 초록은 이를 nonequilibrium thermodynamics에서 영감을 받은 latent variable model 계열이라고 설명합니다.

Forward process q

학습 대상이 아니라, x0에서 xT로 갈수록 노이즈가 커지도록 정한 과정입니다. Page 3은 q(xt−1|xt,x0)의 posterior가 가우시안이라 KL을 닫힌형으로 계산할 수 있다고 설명합니다.

Reverse process pθ

생성 때 쓰는 학습된 역방향 과정입니다. Page 4 Algorithm 2는 xT에서 시작해 t=T,...,1로 내려오며 xt−1을 계산합니다.

ε 예측

신경망이 깨끗한 이미지를 직접 맞히기보다, 현재 noisy image에 섞인 노이즈 ε를 맞히도록 합니다. Page 4 Eq. 11–12와 Page 5 Eq. 14가 이 관점을 뒷받침합니다.

핵심 흐름: 논문이 실제로 제안하는 읽기 순서

  1. 노이즈 추가 공식을 받아들입니다. x0에 단계별 βt로 가우시안 노이즈를 더하면 xt가 됩니다. 이 과정은 학습할 필요가 없는 기준 경로입니다.
  2. 역방향은 가우시안 간 비교 문제로 바뀝니다. Page 3 Eq. 5–7은 KL 항들이 가우시안 비교가 되어 계산 가능하다고 설명합니다.
  3. 모델은 εθ를 배웁니다. Page 4 Algorithm 1은 x0, t, ε를 뽑고, noisy sample에서 εθ가 ε를 맞히도록 gradient descent를 수행합니다.
  4. 샘플링은 노이즈에서 시작합니다. Page 4 Algorithm 2는 xT ∼ N(0,I)에서 출발해 예측 노이즈를 빼는 식으로 x0까지 갑니다.
  5. 실험은 단순 목표가 좋은 샘플을 낳았음을 보여줍니다. Table 1은 CIFAR10에서 Ours(Lsimple)가 IS 9.46, FID 3.17을 얻었다고 보고합니다. Table 2는 ε prediction과 Lsimple 조합의 FID가 3.17로 가장 좋게 제시됩니다.
한 문장 핵심: DDPM은 “이미지를 천천히 망가뜨리는 법”을 알고 있으므로, 신경망에게 “각 단계에서 어떤 노이즈가 섞였는지”를 맞히게 해 천천히 되돌리는 생성기를 만듭니다.

용어 라벨: 도식의 상자와 수식 연결

  • x0: 깨끗한 데이터 이미지. Algorithm 1에서 x0 ∼ q(x0)로 샘플링됩니다.
  • xt: t단계까지 노이즈가 들어간 이미지. Page 4의 학습식은 √ᾱt x0 + √(1−ᾱt) ε 형태의 입력을 사용합니다.
  • xT: 가장 끝의 노이즈 상태. Algorithm 2는 xT ∼ N(0,I)에서 시작합니다.
  • εθ(xt,t): 현재 상태와 시간 t를 보고 들어간 노이즈를 예측하는 함수 근사기입니다.
  • Lsimple: Page 5 Eq. 14의 단순화된 평균제곱오차 목표입니다. 논문은 true variational bound가 codelength에는 낫지만, 단순 목표가 샘플 품질에는 가장 좋았다고 Page 6에서 설명합니다.

실험 지도를 쉽게 보기

CIFAR10 품질

Table 1은 unconditional CIFAR10에서 Ours(Lsimple)가 Inception Score 9.46±0.11, FID 3.17을 기록했다고 제시합니다. 초록도 CIFAR10 FID 3.17을 state-of-the-art라고 표현합니다.

목표함수·파라미터화 ablation

Table 2는 μ 예측, ε 예측, learned/fixed variance, Lsimple 조합을 비교합니다. 이 표에서 ε prediction + Lsimple이 가장 좋은 FID로 나타납니다.

LSUN 샘플

Page 6 Figure 3·4는 LSUN Church FID=7.89, LSUN Bedroom FID=4.90 샘플을 제시합니다.

점진적 압축·복원

초록과 Page 6 Algorithm 3·4, Page 7 Figure 5는 progressive lossy decompression 및 rate-distortion 관찰을 다룹니다.

소스 근거와 주의

보고서 주장근거 수준근거 위치
DDPM은 diffusion probabilistic model이며 고품질 이미지 합성을 목표로 한다.초록 근거Abstract, Page 1
학습은 ε와 εθ의 제곱오차 형태로 단순화될 수 있다.본문 근거Page 4 Algorithm 1, Eq. 12; Page 5 Eq. 14
샘플링은 xT ∼ N(0,I)에서 시작해 t를 거꾸로 진행한다.본문 근거Page 4 Algorithm 2
CIFAR10에서 Lsimple 결과는 IS 9.46, FID 3.17로 제시된다.표 근거Table 1, Page 5
도식의 상하 배치는 교육용 재구성이다.추정논문 원문은 그림 형태의 동일한 교육용 도식을 제공하지 않음
DDPM이 이후 text-to-image diffusion의 직접 구성요소라는 설명본문 확인 필요제공 source pack에는 후속 응용 역사 근거가 없음

주의할 점: 쉬운 그림이 숨기는 어려움

  • 계산 비용: Algorithm 2는 T부터 1까지 반복합니다. source pack에는 T=1000 사용 문맥이 Page 8에 보이지만, 속도·비용의 정량 분석은 본문 확인 필요입니다.
  • 목표함수의 긴장: Page 6은 true variational bound가 codelength에는 낫지만 Lsimple이 샘플 품질에 좋았다고 설명합니다. 즉 “확률모델로 좋은가”와 “눈으로 좋은 샘플인가”가 완전히 같은 목표는 아닙니다.
  • 분산 선택: Table 2와 Page 6은 learned diagonal variance가 불안정하거나 품질이 나빴다고 말합니다. 왜 항상 그런지는 제공 근거만으로 일반화하면 안 됩니다.
  • 그림 검증 한계: source pack은 PDF 텍스트 추출 기반이라 실제 이미지 샘플의 시각 품질 판단은 본문 확인 필요입니다.

독자 행동: 원문을 이렇게 읽기

  1. 먼저 읽기: Page 4 Algorithm 1과 Algorithm 2를 나란히 보며 “학습 때는 ε를 맞히고, 생성 때는 εθ로 한 단계씩 되돌린다”를 확인하세요.
  2. 그다음 읽기: Page 4 Eq. 11–12와 Page 5 Eq. 14에서 μθ를 직접 예측하는 대신 εθ를 쓰는 이유를 표시하세요.
  3. 가볍게 훑기: Page 3 Eq. 5–7은 KL이 가우시안 비교로 정리된다는 큰 의미만 먼저 잡고, 세부 유도는 나중에 보세요.
  4. 실험 확인: Table 1은 성능 주장, Table 2는 설계 선택의 근거로 읽으세요. 특히 ε prediction + Lsimple 행을 체크하세요.
  5. 나중에 검증: Page 6–7의 progressive decompression과 rate-distortion은 “생성 모델이 압축처럼 해석될 수 있다”는 부가 관점으로 다시 읽으세요.

다음에 읽을 논문·주제

  • Denoising score matching / score-based generative modeling 계열: 이 논문은 denoising score matching 및 Langevin dynamics와의 연결을 핵심 근거로 삼습니다(Abstract, Page 3–4). 다음에는 score matching이 왜 노이즈 제거 학습과 연결되는지 설명하는 논문군을 읽으면 Eq. 12의 의미가 쉬워집니다.
  • Langevin dynamics 기반 샘플링: Page 4는 Algorithm 2가 εθ를 데이터 밀도의 learned gradient처럼 쓰는 Langevin dynamics와 닮았다고 설명합니다. 확률적 반복 샘플러의 배경을 보강하는 읽기 방향입니다.
  • Autoregressive model과 diffusion 비교: Page 8은 Gaussian diffusion을 일반화된 bit ordering을 가진 autoregressive model처럼 해석할 수 있다고 말합니다. PixelCNN·Transformer류 생성 모델과 비교해 읽으면 “한 번에 한 픽셀”과 “한 번에 전체 이미지를 조금씩”의 차이를 이해하기 좋습니다.
  • 빠른 샘플링 diffusion 추정: 본 source pack은 빠른 샘플링 후속 연구를 직접 다루지 않습니다. 다만 Algorithm 2의 반복 구조 때문에, 다음 학습 목표로는 “역방향 단계 수를 줄이는 diffusion 계열”을 찾는 것이 자연스럽습니다.