064. Stable Diffusion — 확산 모델의 원리부터 파인튜닝까지
Stable Diffusion은 텍스트 프롬프트로 이미지를 생성하는 잠재 확산 모델이다. 노이즈를 점진적으로 제거하는 역방향 확산 과정을 학습하고, VAE로 픽셀 대신 잠재 공간에서 연산해 효율을 높인다. 원리, 아키텍처, 샘플링 방법, LoRA/ControlNet 같은 파인튜닝 기법, SD1.x부터 FLUX까지의 발전 과정을 다룬다.
Stable Diffusion은 텍스트 프롬프트로 이미지를 생성하는 잠재 확산 모델이다. 노이즈를 점진적으로 제거하는 역방향 확산 과정을 학습하고, VAE로 픽셀 대신 잠재 공간에서 연산해 효율을 높인다. 원리, 아키텍처, 샘플링 방법, LoRA/ControlNet 같은 파인튜닝 기법, SD1.x부터 FLUX까지의 발전 과정을 다룬다.
PEFT(Parameter-Efficient Fine-Tuning)는 Hugging Face가 관리하는 파인튜닝 기법 모음 라이브러리다. LoRA, Prefix Tuning, Prompt Tuning, Adapter, IA3 등의 기법을 통일된 API로 제공한다. 모델 가중치의 1% 미만 파라미터만 학습해 전체 파인튜닝에 가까운 성능을 낸다.
QLoRA(2023)는 4비트 양자화된 기반 모델에 LoRA를 적용해 65B 모델을 단일 48GB GPU에서 파인튜닝하는 방법이다. NF4(Normal Float 4) 양자화, 이중 양자화, 페이지드 옵티마이저 세 가지 기술을 결합해 메모리를 획기적으로 줄인다.