071. 토크나이저 — BPE, WordPiece, SentencePiece
토크나이저는 텍스트를 모델이 처리할 수 있는 토큰 시퀀스로 변환한다. 단어 단위 분리는 미등록 단어 문제가 있고, 문자 단위는 시퀀스가 너무 길어진다. BPE와 WordPiece는 자주 등장하는 문자 조합을 병합해 두 문제를 동시에 해결하는 서브워드 토크나이저다.
토크나이저는 텍스트를 모델이 처리할 수 있는 토큰 시퀀스로 변환한다. 단어 단위 분리는 미등록 단어 문제가 있고, 문자 단위는 시퀀스가 너무 길어진다. BPE와 WordPiece는 자주 등장하는 문자 조합을 병합해 두 문제를 동시에 해결하는 서브워드 토크나이저다.
Prompt Tuning과 Prefix Tuning은 모델 가중치를 고정하고 입력 앞에 붙이는 학습 가능한 벡터(소프트 프롬프트)만 학습한다. 전체 파인튜닝의 0.1% 미만 파라미터로 비슷한 성능을 달성한다.