097. zvec — SQLite처럼 임베드되는 in-process 벡터 데이터베이스

zvec은 애플리케이션 프로세스 안에 박혀 동작하는 임베디드 벡터 DB다. 서버 없이 라이브러리로 dense/sparse 벡터 검색, 전문 검색, 스칼라 필터를 하나의 쿼리로 결합한다. Faiss의 임베디드성과 Milvus의 DB 기능성 사이를 메운다. in-process가 무슨 뜻인지, 6종 인덱스와 HNSW 검색 코드 흐름, VNNI int8 커널 같은 성능 설계, 그리고 RaBitQ·DiskANN이 리눅스 전용이라는 함정까지 분해한다.

2026년 6월 19일 · 7 분 · 3474 단어 · CharmingGroot

090. GPTQ — 사후 학습 양자화

GPTQ(2022)는 LLM 가중치를 4비트로 압축하는 사후 학습 양자화 방법이다. 재학습 없이 보정 데이터만으로 FP16 대비 4배 작은 모델을 만들고, 성능 손실을 최소화한다. 소비자 GPU에서 대형 모델을 실행하는 실용적인 방법이다.

2026년 6월 14일 · 3 분 · 1103 단어 · CharmingGroot

095. QLoRA — 소비자 GPU에서 65B 모델 파인튜닝

QLoRA(2023)는 4비트 양자화된 기반 모델에 LoRA를 적용해 65B 모델을 단일 48GB GPU에서 파인튜닝하는 방법이다. NF4(Normal Float 4) 양자화, 이중 양자화, 페이지드 옵티마이저 세 가지 기술을 결합해 메모리를 획기적으로 줄인다.

2026년 6월 14일 · 3 분 · 1477 단어 · CharmingGroot