090. GPTQ — 사후 학습 양자화

GPTQ(2022)는 LLM 가중치를 4비트로 압축하는 사후 학습 양자화 방법이다. 재학습 없이 보정 데이터만으로 FP16 대비 4배 작은 모델을 만들고, 성능 손실을 최소화한다. 소비자 GPU에서 대형 모델을 실행하는 실용적인 방법이다.

2026년 6월 14일 · 3 분 · 1103 단어 · CharmingGroot