Fundamentos
Qué es un token (y por qué la IA no sabe contar letras)
Los modelos no leen palabras ni letras: leen tokens. Aquí lo pruebas tú mismo con un tokenizador en vivo y entiendes de una vez qué es la ventana de contexto.
Cuando le pides a una IA que cuente las erres de «strawberry» y falla, no es que sea tonta: es que no ve letras. Ve : trozos de texto que pueden ser una palabra entera, un fragmento de palabra o un signo.
La mejor forma de entenderlo es verlo. Escribe cualquier cosa y mira cómo se parte:
¿Has probado con tu nombre? ¿Con un emoji? ¿Con una frase en otro idioma? Verás que el número de tokens no coincide con el de palabras, y que lo que para ti es «una cosa» para el modelo pueden ser varias piezas.
Por qué esto te importa
- Coste. Pagas por token, no por palabra. Un texto en español suele costar más tokens que el mismo texto en inglés.
- Límite. La se mide en tokens: si te pasas, el modelo trunca lo que no cabe.
- Rarezas. Por eso falla al contar letras, al hacer rimas o al manipular texto carácter a carácter: nunca trabaja a nivel de letra.
Compruébalo
¿Por qué a un modelo le cuesta contar cuántas erres tiene «strawberry»?
La próxima vez que una IA te sorprenda con un fallo «tonto» de letras o de longitud, recuerda: está pensando en tokens, no en caracteres.