¿Qué es un tokenizer y por qué necesito un playground?

Un tokenizer descompone el texto en las unidades con las que un modelo de lenguaje calcula — llamadas tokens. Un token suele ser menor que una palabra y mayor que un carácter aislado. Quien conozca el número de tokens de su prompt sabe con más precisión cuánta ventana de contexto se consume, si una salida cabe en el límite y dónde, en entradas multilingües, surgen costes inesperados.

¿Qué tres familias de algoritmo se comparan?

Tres familias dominantes en modelos de lenguaje modernos. Estilo BPE (Byte-Pair-Encoding) parte de caracteres y fusiona pares según frecuencia aprendida — típico de modelos decoder-only. Estilo WordPiece elige desde la izquierda la subpalabra más larga del vocabulario — típico de modelos encoder-only bidireccionales. Estilo Unigram (SentencePiece) calcula la segmentación más probable mediante log-probabilidades — típico de modelos encoder-decoder multilingües. Las tres corren localmente en el navegador, sin cargar ningún peso de modelo.

¿Por qué los distintos idiomas necesitan distintos números de tokens?

Los tokenizers se optimizan en un corpus de entrenamiento mayoritariamente inglés. Palabras inglesas frecuentes como « the » o « and » son un solo token. Compuestos alemanes como « Krankenversicherungsvertrag » se descomponen en ocho o diez piezas. En japonés, árabe y otras escrituras sin límites de palabra la descomposición suele ser por carácter — lo que multiplica el número de tokens por palabra. Es el fenómeno documentado de injusticia del tokenizer (Petrov, Malkin et al., 2023). La pestaña heatmap lo muestra con la misma frase en seis idiomas.

¿Dónde quedan mis entradas — aterrizan en algún sitio?

Su texto no abandona esta pestaña del navegador. Sin petición a servidor, sin cookies, sin analytics, sin `localStorage`. Puede verificarlo en las herramientas de desarrollador: cerrar la pestaña, abrir la pestaña de red, introducir texto — no se dispara ni una sola petición HTTP. Las tres familias de tokenizer corren como módulos JavaScript puros en el navegador. Desde la perspectiva del RGPD no se procesan datos personales en el sentido del art. 4, porque el procesamiento ocurre localmente en su dispositivo.

¿Qué precisión tiene el conteo de tokens en el playground?

El playground implementa los tres algoritmos con un vocabulario de muestra representativo por familia (unas 600 entradas por familia). Eso basta para mostrar correctamente la mecánica del algoritmo — orden de merge en BPE, greedy-longest-match en WordPiece, Viterbi-backtrack en Unigram. Para una predicción exacta de costes de tokens de un modelo comercial concreto use su tokenizer oficial; el playground es una plataforma de aprendizaje y comparación, no una calculadora de costes.

¿Qué me muestra exactamente la traza de algoritmo?

El desarrollo paso a paso de la descomposición sobre su entrada. En BPE ve cada paso de merge: « fusionar 'th' + 'e' → 'the' (regla #22) ». En WordPiece, el greedy-longest-match de cada subpalabra: « match 'play' (4 caracteres) ». En Unigram, el Viterbi-backtrack con log-probabilidades. Se muestran como máximo 40 pasos para que el panel siga siendo legible — para textos largos, trace la primera unidad pre-token.

¿Puedo tokenizar también archivos completos?

Sí, hasta 10 MB. Arrastre un archivo .txt, .md, .json, .csv, .log, .html, .xml o .yaml al campo de entrada. Los archivos mayores se rechazan con un mensaje — el límite no está en la velocidad del algoritmo (un archivo de 10 MB se tokeniza en menos de un segundo), sino en el rendimiento de renderizado de la lista de tokens en el navegador. Si necesita más, recorte el texto antes de soltarlo.

¿Por qué veo « id = -1 » en algunos tokens?

-1 significa: esta pieza no está en el vocabulario de muestra suministrado de la familia seleccionada. El playground recurre entonces a tokens-carácter — exactamente el mismo comportamiento que muestran los tokenizers reales con piezas fuera de vocabulario. Es visible con palabras raras, caracteres Unicode exóticos o idiomas no cubiertos en el vocabulario demo. La idea: lo fuera de vocabulario siempre cuesta más tokens que los idiomas bien cubiertos.

Tokenizer Playground — tres familias en vivo

¿Por qué un Tokenizer Playground?

Quien trabaja con modelos de lenguaje tropieza tarde o temprano con un número más importante que el número de palabras: el número de tokens. Los tokens son las unidades en las que los modelos perciben el texto — normalmente menores que una palabra pero mayores que una letra. El Tokenizer Playground descompone su texto en vivo justo en esas unidades y muestra cada token como ficha codificada por color con token-ID, longitud en bytes y offset de bytes. Pase el cursor sobre cualquier token y verá exactamente qué entrada del vocabulario coincide.

A diferencia de un contador clásico de palabras, un tokenizer ilumina también su propio algoritmo. Tres familias están representadas en el playground: Byte-Pair-Encoding, WordPiece y Unigram. Son las tres escuelas dominantes de las que derivan los tokenizers multilingües actuales. El playground las muestra no como una caja negra, sino como un algoritmo paso a paso rastreable.

Tres familias, tres estrategias — ¿qué las distingue?

Familia BPE (Byte-Pair-Encoding) arranca cada tokenización en caracteres individuales. Luego se fusionan pares según un orden de frecuencia entrenado hasta que ninguna regla más encaja. Marca distintiva: un espacio antes de cada inicio de palabra se conserva como carácter especial (Ġ en la visualización) — eso convierte « the » y « ▁the » (con espacio inicial) en dos tokens distintos. Esta familia es la elección más frecuente en modelos decoder-only para generación de texto. Fuente: Sennrich, Haddow, Birch 2016.

Familia WordPiece elige desde la izquierda la subpalabra más larga del vocabulario que encaja. Las piezas siguientes dentro de la misma palabra reciben el marcador de continuación « ## » — de modo que sale play + ##ing. Pone típicamente la entrada en minúsculas antes. Esta familia se ve en modelos encoder-only bidireccionales clásicos para clasificación y comprensión. Consecuencia: la misma palabra con distinta capitalización produce tokens idénticos.

Familia Unigram (estilo SentencePiece) trata la tokenización como problema de optimización. Cada entrada de vocabulario tiene una log-probabilidad; Viterbi encuentra la segmentación con la suma total más alta. Los inicios de palabra llevan un marcador Unicode (▁). Esta familia es la elección estándar de modelos encoder-decoder multilingües y es preferida cuando la mezcla de escrituras latinas, asiáticas y caracteres especiales es la norma. Fuente: Kudo 2018.

¿Qué me muestra el heatmap multilingüe?

La pestaña heatmap toma un contenido idéntico — el pangrama clásico « el zorro marrón rápido salta sobre el perro perezoso » — y lo traduce a seis idiomas: inglés, alemán, francés, español, japonés y árabe. Para cada idioma, el playground cuenta las palabras (basado en un límite de palabra Unicode) y los tokens (basado en la familia actual elegida) y calcula la ratio tokens por palabra. Sobre 2 se vuelve caro; sobre 4 el idioma queda estructuralmente desfavorecido.

El fenómeno está bien documentado. Un estudio de 2023 mostró que la misma traducción en 22 idiomas produce diferencias de tokens de 1,5 a 14 veces — con inglés siempre en el extremo más barato. El heatmap del playground muestra ese efecto al instante: inglés aterriza típicamente en 1,0–1,3 tokens por palabra, alemán por los compuestos en 1,5–2,0, japonés por la ambigüedad de límites de palabra en 2,5 y más.

¿Cómo muestra la traza del algoritmo la tokenización paso a paso?

Una caja negra es difícil de aprender. Por eso la pestaña de pasos de algoritmo muestra todo el desarrollo de la tokenización sobre su entrada actual. En BPE, la entrada se descompone primero en caracteres individuales. Luego en cada paso se fusiona el par con el rango de merge más alto y se muestra el resultado intermedio. Verá p. ej.: « merge ‘t’ + ‘h’ → ‘th’ (regla #1) », luego « merge ‘th’ + ‘e’ → ‘the’ (regla #22) », luego « no hay más merge posible — terminado ».

En WordPiece cada paso parece distinto. La traza muestra el cursor izquierdo y el match de subpalabra: « match ‘play’ (4 caracteres) », luego « match ‘##ing’ (3 caracteres) ». Si no se encuentra subpalabra, aparece « no hay match en posición N — [UNK] » y la pasada termina. En Unigram la traza muestra el Viterbi-backtrack: cada posición recibe una log-probabilidad, se elige el camino con la suma más alta y los tokens se muestran en el orden en que aparecen.

¿Qué significa el token-ID junto a cada pieza?

Cada tokenizer tiene una tabla de mapeo fija: token-string → token-ID. El ID es el número que el modelo recibe realmente — la cadena es solo la forma legible para humanos. En el playground el ID se muestra junto a cada ficha. Token-ID = -1 significa: esta pieza no está incluida en el vocabulario de muestra. El tokenizer recurre entonces a caracteres individuales, lo que dispara el número de tokens.

Es exactamente el comportamiento fuera de vocabulario de los tokenizers reales en la práctica. Visible en nombres propios raros, términos técnicos, inserciones de idioma extranjero o emoji. Quien pruebe un prompt con « Đorđević » verá que ese único nombre cuesta entre 8 y 12 tokens — mientras un nombre inglés frecuente cabe en uno o dos.

¿Para qué sirve la comparación 3-familias?

En la pestaña de comparación, su entrada corre en paralelo por las tres familias. Directamente arriba hay tres contadores de tokens y un valor Δ — la diferencia con la familia más eficiente. Es la respuesta a una pregunta recurrente en la práctica: « ¿Ahorro tokens si cambio de familia? » La respuesta depende de la entrada. El texto claro en inglés es muy similar en las tres. El código fuente es notablemente más compacto en BPE porque las reglas de merge aprenden secuencias de código frecuentes. El texto CJK es más eficiente en Unigram (con buen vocabulario SentencePiece) porque allí existen tokens multi-carácter para sílabas frecuentes.

¿Qué no está deliberadamente en el playground?

Tres funciones quedan fuera del alcance a propósito. Primero: sin calculadora de coste con precios en euros o dólares — cambian con frecuencia y dependen de cada proveedor. Segundo: sin constructor de chat-template (etiquetas de sistema, usuario y asistente). Distintos modelos usan distintas convenciones, y un constructor de plantillas acopla demasiado rápido a un único modelo. Tercero: sin subidas de vocabulario — supondría un riesgo de seguridad (archivos de vocabulario manipulados podrían contener piezas inseguras).

Estas lagunas son intencionadas. Mantienen el playground ligero, rápido y neutral respecto al proveedor. Quien necesite una estimación exacta de costes de tokens para un modelo concreto usa su tokenizer oficial. Quien quiera entender el algoritmo y comparar tres familias en paralelo — para eso está hecho el playground.

¿Qué hay con la privacidad y el RGPD?

Su texto queda en la memoria del navegador. No hay servidor, ni localStorage, ni cookies, ni analytics, ni petición de red. En la pestaña de red de DevTools no aparece nada tras cargar la página. Cierre la pestaña y todo queda borrado — por diseño. El botón « Copiar estadísticas » también realiza únicamente una llamada local a la Clipboard API, sin tráfico de red.

Desde la perspectiva del RGPD no se procesan datos personales en el sentido del art. 4 porque el procesamiento ocurre localmente en su dispositivo. Incluso prompts sensibles (snippets de código, notas personales, textos jurídicos) quedan en la pestaña. Esta arquitectura hace el playground utilizable en entornos corporativos con requisitos estrictos de cumplimiento.

Tokenizer Playground — tres familias comparadas en vivo

Cómo funciona

Text oder Code einfügen

Automatische Verarbeitung

Ergebnis kopieren

Privacidad

¿Cómo usar esta herramienta?