Ai on CharmingGroot

Ai on CharmingGroot https://charminggroot.github.io/tags/ai/ Recent content in Ai on CharmingGroot Hugo ko-kr Sun, 14 Jun 2026 00:00:00 +0000 064. Stable Diffusion — 확산 모델의 원리부터 파인튜닝까지 https://charminggroot.github.io/posts/064-stable-diffusion/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/064-stable-diffusion/ Stable Diffusion은 텍스트 프롬프트로 이미지를 생성하는 잠재 확산 모델이다. 노이즈를 점진적으로 제거하는 역방향 확산 과정을 학습하고, VAE로 픽셀 대신 잠재 공간에서 연산해 효율을 높인다. 원리, 아키텍처, 샘플링 방법, LoRA/ControlNet 같은 파인튜닝 기법, SD1.x부터 FLUX까지의 발전 과정을 다룬다. 065. Attention Is All You Need — 트랜스포머 논문 핵심 정리 https://charminggroot.github.io/posts/065-attention-is-all-you-need/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/065-attention-is-all-you-need/ 2017년 Google Brain의 Vaswani 등이 발표한 논문. RNN 없이 어텐션만으로 시퀀스를 처리하는 트랜스포머 아키텍처를 제안했다. 병렬 연산이 가능하고 장거리 의존성을 직접 포착한다는 두 가지 특성이 이후 모든 대형 언어 모델의 기반이 됐다. 066. Sentence Transformers — 문장 임베딩과 의미 검색 https://charminggroot.github.io/posts/066-sentence-transformers/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/066-sentence-transformers/ Sentence Transformers(SBERT)는 문장을 고정 크기 벡터로 변환해 의미적 유사도를 빠르게 계산할 수 있게 한다. 2019년 Reimers와 Gurevych가 제안했으며, BERT의 O(n²) 연산 문제를 샴 네트워크 구조로 해결했다. RAG, 의미 검색, 문장 클러스터링의 기반 기술이다. 067. AI 모델 로드맵 — 발전 순서 목록 https://charminggroot.github.io/posts/067-ai-model-roadmap/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/067-ai-model-roadmap/ 딥러닝 모델들의 발표 연도 기준 학습 로드맵. CNN 발전사부터 멀티모달, 추론 최적화, 에이전트까지 순서대로 정리한다. 068. AlexNet → ResNet — CNN과 딥러닝 르네상스 https://charminggroot.github.io/posts/068-cnn-alexnet-resnet/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/068-cnn-alexnet-resnet/ 2012년 AlexNet이 ImageNet 대회에서 압도적인 성능을 보이며 딥러닝 시대를 열었다. 이후 VGGNet, GoogLeNet, ResNet으로 이어지는 CNN 발전사를 다룬다. 각 모델이 해결하려 했던 문제와 핵심 기여를 중심으로 설명한다. 069. YOLO 계보 — 실시간 객체 탐지의 발전 https://charminggroot.github.io/posts/069-yolo/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/069-yolo/ YOLO(You Only Look Once)는 2015년 Joseph Redmon이 제안한 단일 패스 객체 탐지 모델이다. 이미지를 한 번만 보고 모든 객체의 위치와 클래스를 동시에 예측한다. 이전 방식 대비 수십 배 빠른 추론 속도로 실시간 탐지를 가능하게 했다. v1부터 현재 v11까지의 발전 흐름을 다룬다. 070. Word2Vec / GloVe — 단어 임베딩의 시작 https://charminggroot.github.io/posts/070-word2vec-glove/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/070-word2vec-glove/ Word2Vec(2013)은 단어를 고밀도 벡터로 표현하는 방법을 제안했다. 비슷한 맥락에서 등장하는 단어는 비슷한 벡터를 갖는다는 분포 가설을 기반으로, 신경망으로 단어 간 의미 관계를 학습한다. GloVe는 전체 말뭉치의 동시 출현 통계를 활용해 같은 목표를 다른 방식으로 달성했다. 071. 토크나이저 — BPE, WordPiece, SentencePiece https://charminggroot.github.io/posts/071-tokenizer/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/071-tokenizer/ 토크나이저는 텍스트를 모델이 처리할 수 있는 토큰 시퀀스로 변환한다. 단어 단위 분리는 미등록 단어 문제가 있고, 문자 단위는 시퀀스가 너무 길어진다. BPE와 WordPiece는 자주 등장하는 문자 조합을 병합해 두 문제를 동시에 해결하는 서브워드 토크나이저다. 072. BERT — 양방향 트랜스포머 인코더 https://charminggroot.github.io/posts/072-bert/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/072-bert/ BERT(2018)는 트랜스포머 인코더를 양방향으로 사전학습한 모델이다. MLM과 NSP 두 가지 태스크로 대규모 텍스트에서 언어 표현을 학습하고, 다운스트림 태스크에 파인튜닝한다. 문맥 의존 임베딩으로 다의어를 처리하고, 이후 NLP 사전학습 모델의 기준이 됐다. 073. RoBERTa — BERT 학습 방식 개선 https://charminggroot.github.io/posts/073-roberta/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/073-roberta/ RoBERTa(2019)는 BERT 아키텍처를 바꾸지 않고 학습 방식만 개선해 성능을 크게 높였다. NSP 제거, 더 많은 데이터, 더 큰 배치, 동적 마스킹이 핵심이다. ‘좋은 사전학습 레시피’가 아키텍처만큼 중요하다는 것을 보여줬다. 074. DETR — 트랜스포머 기반 객체 탐지 https://charminggroot.github.io/posts/074-detr/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/074-detr/ DETR(2020)은 트랜스포머를 객체 탐지에 처음 적용한 모델이다. NMS 같은 수작업 후처리 없이 이미지에서 객체를 End-to-End로 탐지한다. 헝가리안 매칭으로 예측과 정답을 1대1로 연결해 중복 탐지 문제를 해결했다. 075. ViT — Vision Transformer https://charminggroot.github.io/posts/075-vit/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/075-vit/ ViT(2020)는 이미지를 패치로 나눠 트랜스포머에 입력하는 방식으로 CNN 없이 이미지를 처리한다. 충분히 큰 데이터셋으로 학습하면 ResNet을 능가한다. 이후 비전 모델의 패러다임을 CNN에서 트랜스포머로 전환하는 계기가 됐다. 076. ColBERT — Late Interaction 검색 https://charminggroot.github.io/posts/076-colbert/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/076-colbert/ ColBERT(2020)는 쿼리와 문서를 각각 토큰 단위 벡터로 인코딩하고, 검색 시 MaxSim 연산으로 유사도를 계산하는 Late Interaction 방식을 제안했다. Bi-Encoder의 속도와 Cross-Encoder의 정확도 사이 균형을 잡는다. 077. 청킹 전략 — RAG를 위한 텍스트 분할 https://charminggroot.github.io/posts/077-chunking/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/077-chunking/ RAG 파이프라인에서 청킹은 긴 문서를 임베딩 가능한 크기의 조각으로 나누는 과정이다. 청킹 방식이 검색 품질을 직접 결정한다. 고정 크기, 재귀적 분할, 시맨틱 청킹까지 각 방식의 원리와 트레이드오프를 다룬다. 078. 벡터 DB — Qdrant, pgvector, Pinecone https://charminggroot.github.io/posts/078-vector-db/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/078-vector-db/ 벡터 DB는 고차원 임베딩 벡터를 저장하고 근사 최근접 이웃(ANN) 검색을 빠르게 수행하는 데이터베이스다. Qdrant, pgvector, Pinecone 세 가지 대표 선택지의 구조, 인덱싱 알고리즘, 트레이드오프를 다룬다. 079. 하이브리드 검색 — BM25 + 벡터 검색 https://charminggroot.github.io/posts/079-hybrid-search/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/079-hybrid-search/ 벡터 검색은 의미 유사도를 잘 포착하지만 정확한 키워드 매칭에 약하다. BM25는 반대다. 두 방식을 결합한 하이브리드 검색이 실무 RAG에서 더 안정적인 성능을 낸다. RRF로 두 순위를 결합하고 Cross-Encoder로 재정렬하는 전체 파이프라인을 다룬다. 080. RAG — 검색 증강 생성 파이프라인 https://charminggroot.github.io/posts/080-rag/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/080-rag/ RAG(Retrieval-Augmented Generation)는 LLM이 답변할 때 외부 지식을 검색해 컨텍스트로 주입하는 패턴이다. 모델 가중치에 없는 최신 정보나 도메인 특화 지식을 활용하고 환각을 줄인다. 인덱싱, 검색, 생성 세 단계와 각 단계의 개선 기법을 다룬다. 081. MTEB — 임베딩 모델 벤치마크 읽는 법 https://charminggroot.github.io/posts/081-mteb/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/081-mteb/ MTEB(Massive Text Embedding Benchmark)는 56개 데이터셋, 8개 태스크로 임베딩 모델을 종합 평가하는 벤치마크다. 모델 선택 시 전체 평균이 아니라 실제 사용 태스크와 언어에 맞는 점수를 봐야 한다. 082. DINO — 자기지도학습 비전 표현 https://charminggroot.github.io/posts/082-dino/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/082-dino/ DINO(2021)는 레이블 없이 ViT를 학습하는 자기지도학습 방법이다. 학생-교사 구조에서 이미지의 다른 크롭이 같은 표현을 갖도록 학습한다. 레이블 없이도 의미 있는 시각적 특징을 학습하고, 어텐션 맵이 자연스럽게 세그멘테이션 마스크를 형성한다. 083. CLIP — 텍스트-이미지 공동 임베딩 https://charminggroot.github.io/posts/083-clip/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/083-clip/ CLIP(2021)은 4억 개의 이미지-텍스트 쌍으로 텍스트와 이미지를 같은 임베딩 공간에 정렬한다. 별도 파인튜닝 없이 새로운 분류 태스크에 적용하는 Zero-Shot 분류가 가능하고, 텍스트로 이미지를 검색하거나 이미지로 텍스트를 검색하는 크로스 모달 검색의 기반이 된다. 084. BLIP — 이미지 캡셔닝과 VQA https://charminggroot.github.io/posts/084-blip/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/084-blip/ BLIP(2022)은 노이즈가 많은 웹 이미지-텍스트 쌍을 정제해 학습하는 부트스트래핑 방식을 도입했다. 이미지 이해(Image-Text Matching)와 이미지-텍스트 생성(Captioning)을 통합 모델 안에서 처리한다. 085. Flamingo — Few-Shot 멀티모달 LLM https://charminggroot.github.io/posts/085-flamingo/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/085-flamingo/ Flamingo(2022)는 사전학습된 비전 모델과 LLM을 고정하고 중간 연결 레이어만 학습해 강력한 멀티모달 Few-Shot 능력을 보여준다. 프롬프트에 이미지-텍스트 예시를 몇 개 제공하면 새로운 비전 태스크에 즉시 적응한다. 086. FlashAttention — 어텐션 메모리 최적화 https://charminggroot.github.io/posts/086-flash-attention/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/086-flash-attention/ FlashAttention(2022)은 트랜스포머 어텐션의 메모리 병목을 IO-Aware 타일링으로 해결한다. 어텐션 행렬을 HBM에 저장하지 않고 SRAM에서 직접 계산해 메모리 사용량을 O(n)으로 줄이고 속도를 2~4배 높인다. 087. Matryoshka Representation Learning — 가변 차원 임베딩 https://charminggroot.github.io/posts/087-matryoshka/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/087-matryoshka/ MRL(Matryoshka Representation Learning, 2022)은 하나의 임베딩 모델이 다양한 차원에서 모두 좋은 성능을 내도록 학습하는 방법이다. 큰 임베딩 벡터의 앞부분만 잘라내도 성능이 유지된다. 저장/속도와 정확도 사이를 동적으로 조절할 수 있다. 088. Prompt Tuning / Prefix Tuning — 소프트 프롬프트 학습 https://charminggroot.github.io/posts/088-prompt-prefix-tuning/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/088-prompt-prefix-tuning/ Prompt Tuning과 Prefix Tuning은 모델 가중치를 고정하고 입력 앞에 붙이는 학습 가능한 벡터(소프트 프롬프트)만 학습한다. 전체 파인튜닝의 0.1% 미만 파라미터로 비슷한 성능을 달성한다. 089. PEFT — 파라미터 효율적 파인튜닝 프레임워크 https://charminggroot.github.io/posts/089-peft/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/089-peft/ PEFT(Parameter-Efficient Fine-Tuning)는 Hugging Face가 관리하는 파인튜닝 기법 모음 라이브러리다. LoRA, Prefix Tuning, Prompt Tuning, Adapter, IA3 등의 기법을 통일된 API로 제공한다. 모델 가중치의 1% 미만 파라미터만 학습해 전체 파인튜닝에 가까운 성능을 낸다. 090. GPTQ — 사후 학습 양자화 https://charminggroot.github.io/posts/090-gptq/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/090-gptq/ GPTQ(2022)는 LLM 가중치를 4비트로 압축하는 사후 학습 양자화 방법이다. 재학습 없이 보정 데이터만으로 FP16 대비 4배 작은 모델을 만들고, 성능 손실을 최소화한다. 소비자 GPU에서 대형 모델을 실행하는 실용적인 방법이다. 091. DINOv2 — 범용 비전 특징 추출기 https://charminggroot.github.io/posts/091-dinov2/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/091-dinov2/ DINOv2(2023)는 1억 4200만 장의 정제된 이미지로 학습한 자기지도 비전 모델이다. 파인튜닝 없이 깊이 추정, 세그멘테이션, 분류, 검색 등 다양한 비전 태스크에 직접 사용할 수 있는 범용 비전 특징 추출기다. 092. SAM — Segment Anything Model https://charminggroot.github.io/posts/092-sam/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/092-sam/ SAM(2023)은 Meta AI가 발표한 범용 이미지 세그멘테이션 모델이다. 점, 박스, 텍스트 등 다양한 프롬프트로 이미지의 어떤 객체든 마스크를 생성한다. 11억 개 마스크로 학습된 파운데이션 모델로, 파인튜닝 없이 대부분의 세그멘테이션 태스크에 적용된다. 093. BLIP-2 — Q-Former로 비전과 LLM 연결 https://charminggroot.github.io/posts/093-blip2/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/093-blip2/ BLIP-2(2023)는 Q-Former라는 경량 쿼리 트랜스포머로 고정된 이미지 인코더와 고정된 LLM을 연결한다. 두 모델을 재학습 없이 연결하므로 학습 비용이 낮고, 더 강력한 LLM으로 교체하면 멀티모달 능력도 함께 향상된다. 094. LLaVA — 오픈소스 멀티모달 LLM https://charminggroot.github.io/posts/094-llava/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/094-llava/ LLaVA(2023)는 CLIP 비전 인코더와 LLaMA를 선형 투영 레이어 하나로 연결한 오픈소스 멀티모달 모델이다. GPT-4가 생성한 158K 시각 지시 데이터로 학습해 GPT-4V에 가까운 시각 추론 능력을 보인다. 095. QLoRA — 소비자 GPU에서 65B 모델 파인튜닝 https://charminggroot.github.io/posts/095-qlora/ Sun, 14 Jun 2026 00:00:00 +0000 https://charminggroot.github.io/posts/095-qlora/ QLoRA(2023)는 4비트 양자화된 기반 모델에 LoRA를 적용해 65B 모델을 단일 48GB GPU에서 파인튜닝하는 방법이다. NF4(Normal Float 4) 양자화, 이중 양자화, 페이지드 옵티마이저 세 가지 기술을 결합해 메모리를 획기적으로 줄인다.