DDPM 쉽게 읽기: 노이즈를 거꾸로 걷어내 이미지 만들기
이 논문의 핵심은 깨끗한 이미지 x0에 조금씩 가우시안 노이즈를 더해 xT로 보내는 과정을 먼저 정해 두고, 신경망이 그 반대 방향에서 각 단계의 노이즈 ε를 예측해 제거하도록 학습시키는 것입니다. 이렇게 하면 이미지 생성은 “무작위 노이즈에서 시작해 1000번 안팎의 작은 복원 단계를 밟는 절차”로 이해할 수 있습니다.
배경 개념: 먼저 알아야 할 말
이미지를 직접 한 번에 생성하지 않고, 잠재변수 사슬처럼 여러 단계의 노이즈 상태를 거쳐 생성하는 모델입니다. 초록은 이를 nonequilibrium thermodynamics에서 영감을 받은 latent variable model 계열이라고 설명합니다.
학습 대상이 아니라, x0에서 xT로 갈수록 노이즈가 커지도록 정한 과정입니다. Page 3은 q(xt−1|xt,x0)의 posterior가 가우시안이라 KL을 닫힌형으로 계산할 수 있다고 설명합니다.
생성 때 쓰는 학습된 역방향 과정입니다. Page 4 Algorithm 2는 xT에서 시작해 t=T,...,1로 내려오며 xt−1을 계산합니다.
신경망이 깨끗한 이미지를 직접 맞히기보다, 현재 noisy image에 섞인 노이즈 ε를 맞히도록 합니다. Page 4 Eq. 11–12와 Page 5 Eq. 14가 이 관점을 뒷받침합니다.
핵심 흐름: 논문이 실제로 제안하는 읽기 순서
- 노이즈 추가 공식을 받아들입니다. x0에 단계별 βt로 가우시안 노이즈를 더하면 xt가 됩니다. 이 과정은 학습할 필요가 없는 기준 경로입니다.
- 역방향은 가우시안 간 비교 문제로 바뀝니다. Page 3 Eq. 5–7은 KL 항들이 가우시안 비교가 되어 계산 가능하다고 설명합니다.
- 모델은 εθ를 배웁니다. Page 4 Algorithm 1은 x0, t, ε를 뽑고, noisy sample에서 εθ가 ε를 맞히도록 gradient descent를 수행합니다.
- 샘플링은 노이즈에서 시작합니다. Page 4 Algorithm 2는 xT ∼ N(0,I)에서 출발해 예측 노이즈를 빼는 식으로 x0까지 갑니다.
- 실험은 단순 목표가 좋은 샘플을 낳았음을 보여줍니다. Table 1은 CIFAR10에서 Ours(Lsimple)가 IS 9.46, FID 3.17을 얻었다고 보고합니다. Table 2는 ε prediction과 Lsimple 조합의 FID가 3.17로 가장 좋게 제시됩니다.
용어 라벨: 도식의 상자와 수식 연결
- x0: 깨끗한 데이터 이미지. Algorithm 1에서 x0 ∼ q(x0)로 샘플링됩니다.
- xt: t단계까지 노이즈가 들어간 이미지. Page 4의 학습식은 √ᾱt x0 + √(1−ᾱt) ε 형태의 입력을 사용합니다.
- xT: 가장 끝의 노이즈 상태. Algorithm 2는 xT ∼ N(0,I)에서 시작합니다.
- εθ(xt,t): 현재 상태와 시간 t를 보고 들어간 노이즈를 예측하는 함수 근사기입니다.
- Lsimple: Page 5 Eq. 14의 단순화된 평균제곱오차 목표입니다. 논문은 true variational bound가 codelength에는 낫지만, 단순 목표가 샘플 품질에는 가장 좋았다고 Page 6에서 설명합니다.
실험 지도를 쉽게 보기
CIFAR10 품질
Table 1은 unconditional CIFAR10에서 Ours(Lsimple)가 Inception Score 9.46±0.11, FID 3.17을 기록했다고 제시합니다. 초록도 CIFAR10 FID 3.17을 state-of-the-art라고 표현합니다.
목표함수·파라미터화 ablation
Table 2는 μ 예측, ε 예측, learned/fixed variance, Lsimple 조합을 비교합니다. 이 표에서 ε prediction + Lsimple이 가장 좋은 FID로 나타납니다.
LSUN 샘플
Page 6 Figure 3·4는 LSUN Church FID=7.89, LSUN Bedroom FID=4.90 샘플을 제시합니다.
점진적 압축·복원
초록과 Page 6 Algorithm 3·4, Page 7 Figure 5는 progressive lossy decompression 및 rate-distortion 관찰을 다룹니다.
소스 근거와 주의
| 보고서 주장 | 근거 수준 | 근거 위치 |
|---|---|---|
| DDPM은 diffusion probabilistic model이며 고품질 이미지 합성을 목표로 한다. | 초록 근거 | Abstract, Page 1 |
| 학습은 ε와 εθ의 제곱오차 형태로 단순화될 수 있다. | 본문 근거 | Page 4 Algorithm 1, Eq. 12; Page 5 Eq. 14 |
| 샘플링은 xT ∼ N(0,I)에서 시작해 t를 거꾸로 진행한다. | 본문 근거 | Page 4 Algorithm 2 |
| CIFAR10에서 Lsimple 결과는 IS 9.46, FID 3.17로 제시된다. | 표 근거 | Table 1, Page 5 |
| 도식의 상하 배치는 교육용 재구성이다. | 추정 | 논문 원문은 그림 형태의 동일한 교육용 도식을 제공하지 않음 |
| DDPM이 이후 text-to-image diffusion의 직접 구성요소라는 설명 | 본문 확인 필요 | 제공 source pack에는 후속 응용 역사 근거가 없음 |
주의할 점: 쉬운 그림이 숨기는 어려움
- 계산 비용: Algorithm 2는 T부터 1까지 반복합니다. source pack에는 T=1000 사용 문맥이 Page 8에 보이지만, 속도·비용의 정량 분석은 본문 확인 필요입니다.
- 목표함수의 긴장: Page 6은 true variational bound가 codelength에는 낫지만 Lsimple이 샘플 품질에 좋았다고 설명합니다. 즉 “확률모델로 좋은가”와 “눈으로 좋은 샘플인가”가 완전히 같은 목표는 아닙니다.
- 분산 선택: Table 2와 Page 6은 learned diagonal variance가 불안정하거나 품질이 나빴다고 말합니다. 왜 항상 그런지는 제공 근거만으로 일반화하면 안 됩니다.
- 그림 검증 한계: source pack은 PDF 텍스트 추출 기반이라 실제 이미지 샘플의 시각 품질 판단은 본문 확인 필요입니다.
독자 행동: 원문을 이렇게 읽기
- 먼저 읽기: Page 4 Algorithm 1과 Algorithm 2를 나란히 보며 “학습 때는 ε를 맞히고, 생성 때는 εθ로 한 단계씩 되돌린다”를 확인하세요.
- 그다음 읽기: Page 4 Eq. 11–12와 Page 5 Eq. 14에서 μθ를 직접 예측하는 대신 εθ를 쓰는 이유를 표시하세요.
- 가볍게 훑기: Page 3 Eq. 5–7은 KL이 가우시안 비교로 정리된다는 큰 의미만 먼저 잡고, 세부 유도는 나중에 보세요.
- 실험 확인: Table 1은 성능 주장, Table 2는 설계 선택의 근거로 읽으세요. 특히 ε prediction + Lsimple 행을 체크하세요.
- 나중에 검증: Page 6–7의 progressive decompression과 rate-distortion은 “생성 모델이 압축처럼 해석될 수 있다”는 부가 관점으로 다시 읽으세요.