<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Tokenizer on CharmingGroot</title>
    <link>https://charminggroot.github.io/tags/tokenizer/</link>
    <description>Recent content in Tokenizer on CharmingGroot</description>
    <generator>Hugo</generator>
    <language>ko-kr</language>
    <lastBuildDate>Sun, 14 Jun 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://charminggroot.github.io/tags/tokenizer/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>071. 토크나이저 — BPE, WordPiece, SentencePiece</title>
      <link>https://charminggroot.github.io/posts/071-tokenizer/</link>
      <pubDate>Sun, 14 Jun 2026 00:00:00 +0000</pubDate>
      <guid>https://charminggroot.github.io/posts/071-tokenizer/</guid>
      <description>토크나이저는 텍스트를 모델이 처리할 수 있는 토큰 시퀀스로 변환한다. 단어 단위 분리는 미등록 단어 문제가 있고, 문자 단위는 시퀀스가 너무 길어진다. BPE와 WordPiece는 자주 등장하는 문자 조합을 병합해 두 문제를 동시에 해결하는 서브워드 토크나이저다.</description>
    </item>
  </channel>
</rss>
