¿Cómo usar esta herramienta?
- Suelte el vídeo arrastrándolo o selecciónelo con un clic (hasta 500 MB, MP4, WebM, MOV o MKV)
- Elija la velocidad de muestreo — 1 fps ahorra tiempo, 10 fps ofrece datos de movimiento más finos
- Establezca el umbral de confianza (estándar 0,5) y aplique el filtro de clases
- Inicie el análisis — las detecciones aparecen fotograma a fotograma durante el procesamiento
- Descargue JSON, CSV, SVG o el mapa de calor PNG
¿Qué hace la detección de objetos en vídeo?
La detección de objetos en vídeo muestrea su vídeo a intervalos regulares y pasa cada fotograma muestreado por una red neuronal especializada en detección de objetos. Para cada objeto detectado, obtiene la clase (p. ej. persona, perro o coche), la confianza entre 0 y 1, y la posición en píxeles como recuadro delimitador (xyxy: borde izquierdo, superior, derecho, inferior). El resultado no son clips de vídeo recortados, sino datos estructurados — directamente utilizables para estadísticas, evaluaciones, visualizaciones o entradas en flujos posteriores.
La herramienta trabaja completamente en la pestaña del navegador, mediante WebAssembly o WebGPU. No se envían datos de vídeo a ningún servidor. Solamente el modelo de IA se carga una vez en la caché del navegador, en la primera llamada — después, todos los demás vídeos se ejecutan completamente sin conexión.
¿Qué clases de objetos se reconocen?
En total 80 clases cotidianas. Cubren las categorías que aparecen con más frecuencia en material de imagen normal:
- Seres vivos: persona, pájaro, gato, perro, caballo, oveja, vaca, elefante, oso, cebra, jirafa.
- Vehículos: coche, bicicleta, moto, autobús, tren, camión, barco, avión.
- Tráfico y mobiliario urbano: semáforo, hidrante, señal de Stop, parquímetro, banco.
- Deporte y ocio: frisbee, esquís, snowboard, balón, cometa, bate de béisbol, guante de béisbol, monopatín, tabla de surf, raqueta de tenis.
- Bolso, ropa, accesorios: mochila, paraguas, bolso, corbata, maleta.
- Cocina: botella, copa de vino, taza, tenedor, cuchillo, cuchara, cuenco, microondas, horno, tostadora, fregadero, nevera.
- Alimentos: plátano, manzana, sándwich, naranja, brócoli, zanahoria, hot dog, pizza, donut, tarta.
- Muebles: silla, sofá, planta en maceta, cama, mesa de comedor, inodoro.
- Electrónica: televisión, portátil, ratón, mando a distancia, teclado, móvil.
- Otros interiores: libro, reloj, jarrón, tijeras, osito de peluche, secador, cepillo de dientes.
Antes del análisis, puede filtrar la lista haciendo clic en las píldoras de clase. Por defecto, las 80 clases están activas — si solo necesita personas y perros, haga clic en «Quitar todo» y active las dos deseadas. Eso acorta la lista de aciertos y hace que los datos exportados sean directamente utilizables.
¿Cómo funciona el análisis de imagen fotograma a fotograma?
La herramienta decodifica su vídeo con las API WebCodecs nativas de su navegador. Sobre una línea temporal real, el decodificador salta a los momentos de muestreo elegidos — a 1 fps, una vez por segundo; a 10 fps, diez veces. Cada fotograma así extraído se convierte a un formato de imagen interno y se entrega al modelo de IA cargado.
El modelo aplica detección clásica por recuadro delimitador: divide el fotograma internamente en muchas regiones, estima una probabilidad de clase para cada región y devuelve las regiones cuya mejor clase está por encima del umbral establecido. Estos recuadros están en coordenadas de píxeles de la resolución original del vídeo — encajan 1:1 sobre su archivo de vídeo y no necesitan recálculo a partir de valores normalizados.
Durante el procesamiento, ve en el navegador una barra de progreso y una lista de fotogramas en curso. En la variante precisa, un solo fotograma puede tardar un segundo en vídeos grandes; en la variante rápida, más bien 300 a 500 milisegundos. En cada cambio de estado, puede detener el análisis con «Cancelar» — los datos de los fotogramas ya procesados se conservan.
¿Qué aporta el filtro de clases antes del análisis?
El filtro de clases se establece antes del inicio, no después. Eso tiene dos ventajas:
Primero, el modelo se evalúa de todos modos para las 80 clases, pero solo las relevantes para usted llegan al flujo de resultados. Eso reduce la cantidad de datos en la exportación y hace que el archivo JSON/CSV sea directamente expresivo — no hace falta filtrarlo primero en una hoja de cálculo.
Segundo, simplifica el mapa de calor. Si solo le interesan las personas, no querrá un mapa de calor en el que sillas y mesas dominen los puntos calientes. Con el filtro activo, el mapa de calor solo muestra las posiciones de las clases elegidas — perfecto para análisis de movimiento o mapas de calor de multitudes.
Casos de uso clásicos: solo «persona» para el recuento de multitudes; «persona, perro» para rutas de paseo canino; «coche, camión, autobús, moto» para el flujo de tráfico; «pájaro, balón» para grabaciones de animales o de deporte.
¿Qué exportaciones hay?
Cuatro formatos de exportación, cada uno a un clic para la descarga:
- JSON — un archivo estructurado con lista de fotogramas, marca de tiempo, clase, confianza y recuadro. Directamente importable en Python (pandas.read_json), JavaScript (JSON.parse) o cualquier flujo de análisis de datos. Es la exportación principal para evaluaciones propias.
- CSV — una fila plana por detección, con encabezado en este orden fijo:
frame_index,timestamp_s,class_id,label,score,x1,y1,x2,y2. Ideal para tablas dinámicas en Microsoft Excel, LibreOffice Calc o Google Sheets. - SVG — un archivo vectorial con un bloque
<g>por fotograma clave; cada bloque muestra los recuadros con etiqueta de clase y porcentaje de confianza. Directamente utilizable para informes, porque los recuadros son imprimibles localmente y no se pixelan. - Mapa de calor PNG — un mapa de píxeles en la resolución original del vídeo, en el que los centros de recuadro de todas las detecciones (o las filtradas) se trazan como gráfico de densidad. Las zonas claras significan muchas detecciones; las oscuras, apenas alguna. Práctico para escenas deportivas, análisis de tráfico o para elegir el recorte perfecto en flujos de edición de vídeo.
¿Qué significa la confianza y cómo elijo el umbral correcto?
Cada detección lleva una puntuación de confianza entre 0 y 1. A 0,5, el modelo está aproximadamente «suficientemente seguro»; a 0,9, muy seguro. El umbral que establece antes de la pasada filtra de forma estricta todo lo que esté por debajo — esas detecciones no aparecen ni en el flujo ni en la exportación.
Recomendación: comience con el umbral estándar de 0,5. Si en el resultado ve muchas detecciones erróneas (muebles como personas, o sombras como animales), súbalo a 0,7. Si, por el contrario, está seguro de que hay objetos pero no aparecen, bájelo a 0,4 o 0,35.
Importante: la confianza no es una probabilidad en sentido estadístico estricto, sino una puntuación propia del modelo. En aplicaciones críticas — sistemas de seguridad o evaluaciones jurídicas — debería comprobar los resultados manualmente por muestreo.
¿Con qué rapidez se ejecuta la herramienta en mi dispositivo?
Tres factores determinan el tiempo de ejecución: la duración del vídeo, la velocidad de muestreo y la variante del modelo.
- 5 minutos de vídeo, 1 fps, variante rápida: en un portátil actual, unos 100 segundos — la mayoría de los usuarios eligen esta combinación como punto de partida.
- 5 minutos de vídeo, 1 fps, variante precisa: unos 5 minutos. Merece la pena si la variante rápida comete demasiados errores en su material.
- 5 minutos de vídeo, 10 fps, variante rápida: unos 15 minutos. Sensato para análisis de movimiento o grabaciones deportivas en las que cada segundo cuenta.
- Navegador de smartphone: unas tres veces más lento que un portátil. Con vídeos más grandes, mejor trabajar en el escritorio.
Las estimaciones aparecen tras cargar el modelo, en la línea de estado. Si el proceso dura demasiado, puede hacer clic en «Cancelar» en cualquier momento — los datos de los fotogramas ya procesados se conservan en la lista de resultados y pueden exportarse.
¿Cuán segura es mi privacidad?
Todo el procesamiento se ejecuta en su dispositivo. No hay subida al servidor, ni componente de servidor, ni inferencia en la nube. Esa es una diferencia central frente a muchos proveedores comerciales en los que el vídeo se sube a un servidor en EE. UU., se analiza allí y se devuelve el resultado. Aunque allí no haya seguimiento, la soberanía de los datos no queda en sus manos.
Aquí el vídeo permanece en la pestaña del navegador. Al cerrar la pestaña, se libera la memoria de trabajo y el vídeo desaparece. La única conexión de red que la herramienta establece es la descarga única del archivo del modelo en la primera llamada — después, la herramienta se ejecuta sin conexión.
Esto es conforme al RGPD y compatible con todas las exigencias de privacidad que deba cumplir en escenarios confidenciales o jurídicamente delicados — grabaciones deportivas con niños, vídeos de empresa con personas, material médico o de seguridad.
Posibles casos de uso
- Análisis deportivo: número de jugadores en imagen a lo largo del tiempo, mapa de calor de las posiciones de los jugadores, número de avistamientos del balón.
- Flujo de tráfico: número de vehículos por segundo, mapa de calor de los nudos de tráfico.
- Recuento de multitudes: número de personas en imagen por fotograma como serie temporal en CSV.
- Edición de vídeo: mapa de calor como plantilla de recorte, para encontrar el encuadre 9:16 perfecto para redes sociales.
- Investigación: observaciones de animales con marcas de tiempo en lugar de anotación manual.
- Comprobación de contenido: lista de todas las clases que aparecen en un vídeo antes de la publicación.
Preguntas frecuentes
Última actualización: