¿Qué significa « Segment Anything » — qué hace la herramienta?

Segment Anything es un procedimiento de IA que, con un solo clic, extrae el contorno completo de un objeto en una foto. Toque la imagen — la herramienta genera una máscara con precisión de píxel con la que puede recortar el objeto o cambiar el fondo. El procedimiento funciona para cualquier contenido: personas, animales, productos, objetos, plantas, muebles.

¿Mi foto queda realmente privada?

Sí. La segmentación se ejecuta exclusivamente en su dispositivo mediante [WebAssembly](https://es.wikipedia.org/wiki/WebAssembly) o [WebGPU](https://es.wikipedia.org/wiki/WebGPU). La foto no abandona su pestaña en ningún momento — ni el original ni la máscara calculada se envían a un servidor. Solo el modelo de IA se descarga una vez desde un repositorio público de modelos — no se transmiten datos de imagen, solo el archivo del modelo.

¿Cuál es la diferencia entre los modos clic, recuadro y refinar?

**Clic** es el predeterminado — un solo toque en el objeto genera la selección. **Recuadro** es útil cuando varios objetos similares están juntos (p. ej. varias sillas) — un rectángulo precisa qué objeto se quiere. **Refinar** es el modo avanzado: los clics positivos (verde) añaden zonas a la máscara y los Mayús+clic (naranja) las retiran. La máscara se actualiza en vivo, en menos de 100 ms por clic.

¿Qué son las tres propuestas de máscara debajo de la imagen?

El modelo entrega por cada clic tres máscaras candidatas con distinta granularidad: la mejor puntuación IoU (confianza) está preseleccionada. Las propuestas alternativas muestran a menudo subselecciones útiles — en un retrato, p. ej., « solo cabeza », « cabeza+hombros » y « persona completa ». Toque una propuesta para cambiar la máscara.

¿Por qué la primera selección por clic tarda más que las siguientes?

La herramienta usa un procedimiento en dos fases: en la primera imagen, el codificador de imagen se ejecuta una vez (unos 2 a 6 segundos, según el dispositivo y el modelo). Después, la herramienta guarda la representación de la imagen en memoria, y cada clic siguiente solo necesita el pequeño decodificador de máscara — típicamente menos de 100 milisegundos. Así el refinamiento se siente en tiempo real.

¿Qué tan fiable es la segmentación con IA?

Muy buena para objetos claramente delimitados en fotos cotidianas — personas, animales, productos, muebles, vehículos. Más difíciles son los objetos transparentes (vidrio, velos), el cabello o pelaje fino con visibilidad del fondo y los reflejos. En virtud del artículo 50 del Reglamento de IA de la UE, la herramienta muestra sobre cada resultado un aviso de que la selección es una estimación — en aplicaciones críticas conviene verificar antes de usarla.

¿Qué puedo hacer con la máscara?

Tres flujos típicos: **recorte** — el objeto con fondo transparente como PNG para composiciones, fotos de producto, gráficos de redes sociales. **Máscara inversa** — conservar el fondo y eliminar el objeto (para flujos de eliminación). **Máscara pura** — PNG en blanco y negro para [Photoshop](https://www.adobe.com/products/photoshop.html), [Affinity Photo](https://affinity.serif.com/es/photo/), [GIMP](https://www.gimp.org/) como máscara de selección, [Blender](https://www.blender.org/) como canal alfa.

Segment Anything — recortar objetos con un clic

¿Qué hace la herramienta?

Segment Anything extrae con un solo clic el contorno completo de un objeto en una foto. Toque la imagen y la herramienta calcula una máscara con precisión de píxel; obtendrá tres salidas: el objeto recortado como PNG (fondo transparente), la máscara pura en blanco y negro (para programas de retoque) y la máscara inversa (conservar el fondo, eliminar el objeto). Todo sucede directamente en su navegador mediante WebAssembly o WebGPU — ninguna foto se envía a un servidor.

El núcleo del procedimiento es una red neuronal especializada para segmentación de imagen basada en indicaciones. Usted le da al modelo una « indicación » — un punto de clic, un rectángulo o una combinación de puntos positivos y negativos — y devuelve la máscara correspondiente. Funciona para cualquier objeto: personas, animales, muebles, productos, plantas, vehículos. No está limitado a una lista fija de clases como en los procedimientos antiguos.

¿Cómo funciona la segmentación en su navegador?

La herramienta trabaja en dos fases. En la fase de análisis, un codificador de imagen se ejecuta una vez sobre su foto — extrae las representaciones espaciales de la imagen a un formato interno necesario para la selección posterior. Esta fase tarda, según el modelo y el dispositivo, unos 2 a 6 segundos y se realiza una sola vez por imagen.

En la fase de selección, un pequeño decodificador de máscara se ejecuta en cada clic. Como el codificador ya ha hecho su trabajo y la representación está en memoria, esta fase es notablemente más rápida — típicamente menos de 100 milisegundos por clic. El refinamiento se siente así como una interacción en vivo: usted toca, la máscara se actualiza, toca de nuevo, la máscara se adapta.

Esta división en dos fases es el truco central de rendimiento frente a herramientas antiguas que vuelven a procesar todo el modelo en cada clic — allí cada clic tarda varios segundos, lo que hace prácticamente imposible el refinamiento.

¿Qué modos de selección hay?

Modo clic es el predeterminado. Toque una vez el objeto deseado y el modelo reconoce automáticamente el contorno asociado. Funciona de maravilla para objetos claramente delimitados con contraste respecto al fondo — personas frente a una pared, productos sobre una mesa, animales en un paisaje.

Modo recuadro es útil cuando varios objetos similares están juntos. Arrastre un rectángulo alrededor del objeto deseado y el modelo sabe exactamente cuál es. Ejemplo clásico: fotos con varias personas, donde un clic aislado sería ambiguo.

Modo refinar es el modo avanzado. Tocar añade un punto positivo (incluido en la máscara, mostrado en el color de realce); Mayús+tocar añade un punto negativo (excluido de la máscara, en el color de error). Con dos o tres puntos adicionales se pueden producir selecciones complejas con precisión — por ejemplo « solo la camiseta, no la piel ».

¿Qué son las tres propuestas de máscara?

El modelo entrega por cada indicación no una sino tres máscaras con distinta granularidad. Las propuestas se ordenan por confianza estimada (Intersection-over-Union, IoU) — la más probable está preseleccionada. Puede cambiar entre las tres sin recalcular.

En la práctica las tres propuestas suelen verse así: con un clic en un retrato, el modelo entrega « solo cabeza », « cabeza y hombros » y « persona completa ». Con un clic sobre un coche: « solo carrocería », « coche con cristales » y « coche con sombra en el suelo ». Estas propuestas múltiples ahorran el siguiente clic de refinamiento cuando la granularidad inmediata no es la deseada.

¿Para qué puedo usar la máscara?

La salida es universal, la herramienta ofrece tres opciones de descarga:

Recorte PNG — el objeto con fondo transparente. Directamente utilizable para composiciones en Adobe Photoshop, imágenes de producto en una plataforma de venta, gráficos de redes sociales con fondo transparente o como superposición para montaje de vídeo.
Máscara PNG — imagen en blanco y negro, blanco = objeto, negro = fondo. Entrada para sus propios flujos de trabajo en Affinity Photo, GIMP como « cargar selección desde máscara », o como canal alfa en Blender para composiciones 3D.
Máscara inversa / recorte inverso — conservar el fondo, eliminar el objeto. Práctica para flujos « quitar persona de la foto » en combinación con un relleno según contenido en su editor de imagen.

Todas las salidas son PNG sin pérdida en la resolución original de su foto de entrada. Sin marcas de agua ocultas, sin conversiones de formato, sin pérdida de calidad.

¿Cuándo entrega la herramienta resultados especialmente buenos?

Objetos claramente delimitados con buen contraste son el punto óptimo. Una persona frente a una pared de un solo color, un producto sobre una mesa despejada, un animal en un paisaje típico — aquí basta a menudo un solo clic para un resultado listo para imprimir.

Las escenas más difíciles también funcionan bien, pero requieren refinamiento: en cabello fino con visibilidad del fondo, un clic de refinamiento sobre la punta del cabello suele aportar el contorno que falta. En una persona que sostiene un objeto delante (p. ej. un móvil, un vaso), un clic negativo sobre el objeto los separa limpiamente.

Casos difíciles: objetos completamente transparentes (cristal, gotas de agua), detalle muy fino (puntas de cabello sin contraste), reflejos y espejismos, e imágenes de baja resolución (por debajo de 256×256). En estos casos es razonable un retoque manual en un programa de imagen — la máscara de la herramienta es entonces un buen punto de partida, no el producto final.

¿Mi foto es realmente privada?

La segmentación se ejecuta exclusivamente en su dispositivo. Ni el original ni la máscara calculada se envían a un servidor, se almacenan ni se analizan. No hay banner de cookies de terceros, ni registro ni seguimiento — tampoco análisis anónimo de uso.

La única excepción es la descarga única del modelo en el primer uso: el archivo del modelo se carga una vez desde un repositorio público de modelos. Esta petición solo contiene la URL del archivo. No se transmiten datos de imagen, identificadores de usuario ni información personal identificable. Tras la primera carga, el modelo permanece en la caché del navegador y ya no se vuelve a contactar la CDN.

Para material sensible como prototipos de producto, imágenes confidenciales o tomas no publicadas, es la ventaja decisiva frente a herramientas en la nube que tienen que subir el archivo — en kittokit nadie salvo usted ve la foto.

¿Qué dice el Reglamento de IA de la UE sobre los contenidos generados por IA?

A partir de agosto de 2026, el artículo 50 del Reglamento de IA de la UE exige que los contenidos generados por IA se etiqueten como tales. Por eso la herramienta muestra sobre cada resultado un aviso visible fijo: « Esta selección ha sido estimada por un modelo de IA. Revísela ante ilusiones ópticas o escenas inusuales. » Este aviso es obligatorio y no se puede ocultar.

En la práctica: la máscara es una propuesta, no una clasificación vinculante. Para fines creativos (composiciones, imágenes de producto, redes sociales) la precisión es más que suficiente; para aplicaciones críticas de seguridad (análisis de imagen médica, identificación jurídica, sistemas autónomos) se necesita una herramienta profesional con garantía de clasificación — no una estimación de IA local en el navegador.

Preguntas frecuentes

Las preguntas principales en torno a uso, calidad y privacidad:

¿Cómo recorto un objeto con un clic?

Suba su foto a la herramienta de arriba — tras unos 3 segundos de fase de análisis, haga clic una vez en el objeto. La máscara aparece de inmediato. Hay tres propuestas a elegir, la más probable está preseleccionada. Descargue la máscara PNG o el recorte PNG.

¿Funciona la herramienta sin conexión?

Sí. En el primer uso, el navegador descarga el modelo de IA una sola vez (unos 21 MB para la variante rápida, unos 106 MB para la precisa). Después, todas las demás segmentaciones se ejecutan sin conexión desde la caché.

¿Qué formatos de imagen puedo subir?

Entrada: PNG, JPG, WebP, AVIF y HEIC (fotos de iPhone). HEIC se decodifica automáticamente. Salida: PNG sin pérdida (máscara + recorte + máscara inversa) en resolución original.

¿Cuánto tarda una selección?

Por imagen, unos 2 a 6 segundos para la fase única de análisis y, a continuación, menos de 100 milisegundos por clic de refinamiento.

¿Qué herramientas de imagen encajan?

Otras herramientas del ecosistema kittokit que encajan bien con la segmentación de objetos:

Quitar fondo — recorte automático sin clic, ideal para retratos y productos con fondo claro.
Foto a dibujo para colorear — dibujo de líneas en vez de máscara, para flujos de impresión con carácter de coloreado.
Crear mapa de profundidad — profundidad espacial en vez de máscara de objeto, complementa la segmentación para flujos 3D.
Ampliar imagen — escalar imágenes de entrada antes de la segmentación si la fuente está por debajo de 512×512.
Convertidor de formato de imagen — convertir máscaras o recortes a otros formatos (PNG sin pérdida a WebP compacto).