¿Qué hace exactamente la detección de objetos en vídeo?

La herramienta muestrea su vídeo a intervalos regulares (1 a 10 fotogramas por segundo), pasa cada fotograma muestreado por un modelo de IA y devuelve, para cada objeto detectado, la clase (p. ej. persona, perro, coche), la confianza (0 a 1) y el recuadro en píxeles (xyxy). No obtiene un archivo de vídeo recortado, sino datos estructurados para análisis posterior.

¿Qué clases de objetos reconoce la herramienta?

En total, 80 clases cotidianas — personas, animales (perro, gato, pájaro, caballo, …), vehículos (coche, bicicleta, moto, autobús, …), muebles, equipo deportivo, utensilios de cocina, electrónica. Puede filtrar las clases antes del análisis para que solo las relevantes para usted se cuenten y se dibujen.

¿Se suben mis vídeos?

No. El análisis se ejecuta completamente en su navegador. Ni el vídeo ni los recuadros o clases calculados abandonan su dispositivo. Solamente el modelo de IA se carga una sola vez, en la primera llamada, desde un repositorio de modelos (unos 9 MB para la variante rápida, unos 43 MB para la precisa) — no se transmiten datos de vídeo, solo el archivo del modelo.

¿En qué se diferencian las variantes del modelo?

La variante rápida (unos 9 MB) prioriza la velocidad de la primera inferencia y también encaja en móviles con memoria ajustada. La variante precisa (unos 43 MB) ofrece recuadros notablemente más exactos y mayor confianza, pero necesita aproximadamente tres veces más tiempo por fotograma. Recomendación: primero comprobar con la variante rápida si la detección de clases funciona en el material y, después, hacer la pasada final con la variante precisa.

¿Qué significa el umbral de confianza?

Cada detección lleva un valor entre 0 y 1 — lo seguro que está el modelo. 0,5 es un umbral estándar consolidado. Más bajo (p. ej. 0,3) encuentra más objetos, pero genera más detecciones erróneas. Más alto (p. ej. 0,8) solo muestra detecciones muy seguras, pero pasa por alto objetos pequeños o parcialmente cubiertos. Para estadísticas, 0,5 a 0,6 es adecuado; para control visual, 0,7 a 0,85.

¿Cuánto dura el análisis?

Los factores principales son la duración del vídeo, la velocidad de muestreo y la variante del modelo. Ejemplo: vídeo de 5 minutos a 1 fps de muestreo con la variante rápida — unos 100 segundos en un portátil de gama media. El mismo archivo con la variante precisa: unos 5 minutos. A 10 fps el tiempo se multiplica en consecuencia. La estimación aparece tras cargar el modelo, en la línea de estado.

¿Para qué sirve el mapa de calor?

El mapa de calor PNG agrega los centros de todas las detecciones a lo largo de toda la duración del vídeo en un mapa de píxeles en resolución original. Así ve de un vistazo dónde se concentran los movimientos en la imagen — valioso para análisis deportivos, evaluaciones de flujo de tráfico o selección de recortes para flujos de trabajo de recorte. Las zonas claras significan muchas detecciones; las oscuras, apenas alguna.

¿Para qué sirven las exportaciones JSON, CSV y SVG?

El **archivo JSON** contiene, por fotograma, las listas completas de detección con marca de tiempo, clase, confianza y recuadro xyxy — directamente utilizable en Python, JavaScript o una hoja de cálculo. El **archivo CSV** aplana lo mismo en una línea por detección — ideal para tablas dinámicas o evaluación en [Excel](https://www.microsoft.com/es-es/microsoft-365/excel) o [Google Sheets](https://www.google.com/intl/es_es/sheets/about/). El **paquete SVG** muestra los recuadros directamente sobre cada fotograma clave — adecuado para informes y muestreos visuales.

Detección de objetos en vídeo — IA en el navegador

¿Qué hace la detección de objetos en vídeo?

La detección de objetos en vídeo muestrea su vídeo a intervalos regulares y pasa cada fotograma muestreado por una red neuronal especializada en detección de objetos. Para cada objeto detectado, obtiene la clase (p. ej. persona, perro o coche), la confianza entre 0 y 1, y la posición en píxeles como recuadro delimitador (xyxy: borde izquierdo, superior, derecho, inferior). El resultado no son clips de vídeo recortados, sino datos estructurados — directamente utilizables para estadísticas, evaluaciones, visualizaciones o entradas en flujos posteriores.

La herramienta trabaja completamente en la pestaña del navegador, mediante WebAssembly o WebGPU. No se envían datos de vídeo a ningún servidor. Solamente el modelo de IA se carga una vez en la caché del navegador, en la primera llamada — después, todos los demás vídeos se ejecutan completamente sin conexión.

¿Qué clases de objetos se reconocen?

En total 80 clases cotidianas. Cubren las categorías que aparecen con más frecuencia en material de imagen normal:

Seres vivos: persona, pájaro, gato, perro, caballo, oveja, vaca, elefante, oso, cebra, jirafa.
Vehículos: coche, bicicleta, moto, autobús, tren, camión, barco, avión.
Tráfico y mobiliario urbano: semáforo, hidrante, señal de Stop, parquímetro, banco.
Deporte y ocio: frisbee, esquís, snowboard, balón, cometa, bate de béisbol, guante de béisbol, monopatín, tabla de surf, raqueta de tenis.
Bolso, ropa, accesorios: mochila, paraguas, bolso, corbata, maleta.
Cocina: botella, copa de vino, taza, tenedor, cuchillo, cuchara, cuenco, microondas, horno, tostadora, fregadero, nevera.
Alimentos: plátano, manzana, sándwich, naranja, brócoli, zanahoria, hot dog, pizza, donut, tarta.
Muebles: silla, sofá, planta en maceta, cama, mesa de comedor, inodoro.
Electrónica: televisión, portátil, ratón, mando a distancia, teclado, móvil.
Otros interiores: libro, reloj, jarrón, tijeras, osito de peluche, secador, cepillo de dientes.

Antes del análisis, puede filtrar la lista haciendo clic en las píldoras de clase. Por defecto, las 80 clases están activas — si solo necesita personas y perros, haga clic en «Quitar todo» y active las dos deseadas. Eso acorta la lista de aciertos y hace que los datos exportados sean directamente utilizables.

¿Cómo funciona el análisis de imagen fotograma a fotograma?

La herramienta decodifica su vídeo con las API WebCodecs nativas de su navegador. Sobre una línea temporal real, el decodificador salta a los momentos de muestreo elegidos — a 1 fps, una vez por segundo; a 10 fps, diez veces. Cada fotograma así extraído se convierte a un formato de imagen interno y se entrega al modelo de IA cargado.

El modelo aplica detección clásica por recuadro delimitador: divide el fotograma internamente en muchas regiones, estima una probabilidad de clase para cada región y devuelve las regiones cuya mejor clase está por encima del umbral establecido. Estos recuadros están en coordenadas de píxeles de la resolución original del vídeo — encajan 1:1 sobre su archivo de vídeo y no necesitan recálculo a partir de valores normalizados.

Durante el procesamiento, ve en el navegador una barra de progreso y una lista de fotogramas en curso. En la variante precisa, un solo fotograma puede tardar un segundo en vídeos grandes; en la variante rápida, más bien 300 a 500 milisegundos. En cada cambio de estado, puede detener el análisis con «Cancelar» — los datos de los fotogramas ya procesados se conservan.

¿Qué aporta el filtro de clases antes del análisis?

El filtro de clases se establece antes del inicio, no después. Eso tiene dos ventajas:

Primero, el modelo se evalúa de todos modos para las 80 clases, pero solo las relevantes para usted llegan al flujo de resultados. Eso reduce la cantidad de datos en la exportación y hace que el archivo JSON/CSV sea directamente expresivo — no hace falta filtrarlo primero en una hoja de cálculo.

Segundo, simplifica el mapa de calor. Si solo le interesan las personas, no querrá un mapa de calor en el que sillas y mesas dominen los puntos calientes. Con el filtro activo, el mapa de calor solo muestra las posiciones de las clases elegidas — perfecto para análisis de movimiento o mapas de calor de multitudes.

Casos de uso clásicos: solo «persona» para el recuento de multitudes; «persona, perro» para rutas de paseo canino; «coche, camión, autobús, moto» para el flujo de tráfico; «pájaro, balón» para grabaciones de animales o de deporte.

¿Qué exportaciones hay?

Cuatro formatos de exportación, cada uno a un clic para la descarga:

JSON — un archivo estructurado con lista de fotogramas, marca de tiempo, clase, confianza y recuadro. Directamente importable en Python (pandas.read_json), JavaScript (JSON.parse) o cualquier flujo de análisis de datos. Es la exportación principal para evaluaciones propias.
CSV — una fila plana por detección, con encabezado en este orden fijo: frame_index, timestamp_s, class_id, label, score, x1, y1, x2, y2. Ideal para tablas dinámicas en Microsoft Excel, LibreOffice Calc o Google Sheets.
SVG — un archivo vectorial con un bloque <g> por fotograma clave; cada bloque muestra los recuadros con etiqueta de clase y porcentaje de confianza. Directamente utilizable para informes, porque los recuadros son imprimibles localmente y no se pixelan.
Mapa de calor PNG — un mapa de píxeles en la resolución original del vídeo, en el que los centros de recuadro de todas las detecciones (o las filtradas) se trazan como gráfico de densidad. Las zonas claras significan muchas detecciones; las oscuras, apenas alguna. Práctico para escenas deportivas, análisis de tráfico o para elegir el recorte perfecto en flujos de edición de vídeo.

¿Qué significa la confianza y cómo elijo el umbral correcto?

Cada detección lleva una puntuación de confianza entre 0 y 1. A 0,5, el modelo está aproximadamente «suficientemente seguro»; a 0,9, muy seguro. El umbral que establece antes de la pasada filtra de forma estricta todo lo que esté por debajo — esas detecciones no aparecen ni en el flujo ni en la exportación.

Recomendación: comience con el umbral estándar de 0,5. Si en el resultado ve muchas detecciones erróneas (muebles como personas, o sombras como animales), súbalo a 0,7. Si, por el contrario, está seguro de que hay objetos pero no aparecen, bájelo a 0,4 o 0,35.

Importante: la confianza no es una probabilidad en sentido estadístico estricto, sino una puntuación propia del modelo. En aplicaciones críticas — sistemas de seguridad o evaluaciones jurídicas — debería comprobar los resultados manualmente por muestreo.

¿Con qué rapidez se ejecuta la herramienta en mi dispositivo?

Tres factores determinan el tiempo de ejecución: la duración del vídeo, la velocidad de muestreo y la variante del modelo.

5 minutos de vídeo, 1 fps, variante rápida: en un portátil actual, unos 100 segundos — la mayoría de los usuarios eligen esta combinación como punto de partida.
5 minutos de vídeo, 1 fps, variante precisa: unos 5 minutos. Merece la pena si la variante rápida comete demasiados errores en su material.
5 minutos de vídeo, 10 fps, variante rápida: unos 15 minutos. Sensato para análisis de movimiento o grabaciones deportivas en las que cada segundo cuenta.
Navegador de smartphone: unas tres veces más lento que un portátil. Con vídeos más grandes, mejor trabajar en el escritorio.

Las estimaciones aparecen tras cargar el modelo, en la línea de estado. Si el proceso dura demasiado, puede hacer clic en «Cancelar» en cualquier momento — los datos de los fotogramas ya procesados se conservan en la lista de resultados y pueden exportarse.

¿Cuán segura es mi privacidad?

Todo el procesamiento se ejecuta en su dispositivo. No hay subida al servidor, ni componente de servidor, ni inferencia en la nube. Esa es una diferencia central frente a muchos proveedores comerciales en los que el vídeo se sube a un servidor en EE. UU., se analiza allí y se devuelve el resultado. Aunque allí no haya seguimiento, la soberanía de los datos no queda en sus manos.

Aquí el vídeo permanece en la pestaña del navegador. Al cerrar la pestaña, se libera la memoria de trabajo y el vídeo desaparece. La única conexión de red que la herramienta establece es la descarga única del archivo del modelo en la primera llamada — después, la herramienta se ejecuta sin conexión.

Esto es conforme al RGPD y compatible con todas las exigencias de privacidad que deba cumplir en escenarios confidenciales o jurídicamente delicados — grabaciones deportivas con niños, vídeos de empresa con personas, material médico o de seguridad.

Posibles casos de uso

Análisis deportivo: número de jugadores en imagen a lo largo del tiempo, mapa de calor de las posiciones de los jugadores, número de avistamientos del balón.
Flujo de tráfico: número de vehículos por segundo, mapa de calor de los nudos de tráfico.
Recuento de multitudes: número de personas en imagen por fotograma como serie temporal en CSV.
Edición de vídeo: mapa de calor como plantilla de recorte, para encontrar el encuadre 9:16 perfecto para redes sociales.
Investigación: observaciones de animales con marcas de tiempo en lugar de anotación manual.
Comprobación de contenido: lista de todas las clases que aparecen en un vídeo antes de la publicación.

Detección de objetos en vídeo — recuadros sin conexión en el navegador

Cómo funciona

Elegir vídeo

Configurar el análisis

Iniciar el análisis y exportar el resultado

Privacidad

¿Cómo usar esta herramienta?