Ai | CharmingGroot

064. Stable Diffusion — 확산 모델의 원리부터 파인튜닝까지

Stable Diffusion은 텍스트 프롬프트로 이미지를 생성하는 잠재 확산 모델이다. 노이즈를 점진적으로 제거하는 역방향 확산 과정을 학습하고, VAE로 픽셀 대신 잠재 공간에서 연산해 효율을 높인다. 원리, 아키텍처, 샘플링 방법, LoRA/ControlNet 같은 파인튜닝 기법, SD1.x부터 FLUX까지의 발전 과정을 다룬다.

065. Attention Is All You Need — 트랜스포머 논문 핵심 정리

2017년 Google Brain의 Vaswani 등이 발표한 논문. RNN 없이 어텐션만으로 시퀀스를 처리하는 트랜스포머 아키텍처를 제안했다. 병렬 연산이 가능하고 장거리 의존성을 직접 포착한다는 두 가지 특성이 이후 모든 대형 언어 모델의 기반이 됐다.

066. Sentence Transformers — 문장 임베딩과 의미 검색

Sentence Transformers(SBERT)는 문장을 고정 크기 벡터로 변환해 의미적 유사도를 빠르게 계산할 수 있게 한다. 2019년 Reimers와 Gurevych가 제안했으며, BERT의 O(n²) 연산 문제를 샴 네트워크 구조로 해결했다. RAG, 의미 검색, 문장 클러스터링의 기반 기술이다.

067. AI 모델 로드맵 — 발전 순서 목록

딥러닝 모델들의 발표 연도 기준 학습 로드맵. CNN 발전사부터 멀티모달, 추론 최적화, 에이전트까지 순서대로 정리한다.

068. AlexNet → ResNet — CNN과 딥러닝 르네상스

2012년 AlexNet이 ImageNet 대회에서 압도적인 성능을 보이며 딥러닝 시대를 열었다. 이후 VGGNet, GoogLeNet, ResNet으로 이어지는 CNN 발전사를 다룬다. 각 모델이 해결하려 했던 문제와 핵심 기여를 중심으로 설명한다.

069. YOLO 계보 — 실시간 객체 탐지의 발전

YOLO(You Only Look Once)는 2015년 Joseph Redmon이 제안한 단일 패스 객체 탐지 모델이다. 이미지를 한 번만 보고 모든 객체의 위치와 클래스를 동시에 예측한다. 이전 방식 대비 수십 배 빠른 추론 속도로 실시간 탐지를 가능하게 했다. v1부터 현재 v11까지의 발전 흐름을 다룬다.

070. Word2Vec / GloVe — 단어 임베딩의 시작

Word2Vec(2013)은 단어를 고밀도 벡터로 표현하는 방법을 제안했다. 비슷한 맥락에서 등장하는 단어는 비슷한 벡터를 갖는다는 분포 가설을 기반으로, 신경망으로 단어 간 의미 관계를 학습한다. GloVe는 전체 말뭉치의 동시 출현 통계를 활용해 같은 목표를 다른 방식으로 달성했다.

071. 토크나이저 — BPE, WordPiece, SentencePiece

토크나이저는 텍스트를 모델이 처리할 수 있는 토큰 시퀀스로 변환한다. 단어 단위 분리는 미등록 단어 문제가 있고, 문자 단위는 시퀀스가 너무 길어진다. BPE와 WordPiece는 자주 등장하는 문자 조합을 병합해 두 문제를 동시에 해결하는 서브워드 토크나이저다.

072. BERT — 양방향 트랜스포머 인코더

BERT(2018)는 트랜스포머 인코더를 양방향으로 사전학습한 모델이다. MLM과 NSP 두 가지 태스크로 대규모 텍스트에서 언어 표현을 학습하고, 다운스트림 태스크에 파인튜닝한다. 문맥 의존 임베딩으로 다의어를 처리하고, 이후 NLP 사전학습 모델의 기준이 됐다.

073. RoBERTa — BERT 학습 방식 개선

RoBERTa(2019)는 BERT 아키텍처를 바꾸지 않고 학습 방식만 개선해 성능을 크게 높였다. NSP 제거, 더 많은 데이터, 더 큰 배치, 동적 마스킹이 핵심이다. ‘좋은 사전학습 레시피’가 아키텍처만큼 중요하다는 것을 보여줬다.