Comment utiliser cet outil ?
- Déposer la vidéo par glisser-déposer ou sélectionner par clic (jusqu'à 500 Mo, MP4, WebM, MOV ou MKV)
- Choisir la cadence d'échantillonnage — 1 fps économise du temps, 10 fps fournit des données de mouvement plus fines
- Régler le seuil de confiance (par défaut 0,5) et poser le filtre de classes
- Démarrer l'analyse — les détections apparaissent frame par frame pendant le traitement
- Télécharger en JSON, CSV, SVG ou Heatmap-PNG
Que fait la détection d’objets vidéo ?
La détection d’objets vidéo échantillonne votre vidéo à intervalles réguliers et envoie chaque frame échantillonné à travers un réseau de neurones spécialisé pour la détection d’objets. Pour chaque objet détecté, vous obtenez la classe (par exemple personne, chien ou voiture), la confiance entre 0 et 1 et la position en pixels comme bounding-box (xyxy : bord gauche, supérieur, droit, inférieur). Le résultat n’est pas un clip vidéo coupé, mais des données structurées — directement utilisables pour statistiques, évaluations, visualisations ou entrées dans des workflows en aval.
L’outil travaille entièrement dans l’onglet du navigateur via WebAssembly ou WebGPU. Aucune donnée vidéo n’est envoyée à un serveur. Seul le modèle d’IA est chargé une fois dans le cache du navigateur au premier appel — toutes les vidéos suivantes tournent ensuite entièrement hors ligne.
Quelles classes d’objets sont reconnues ?
Au total 80 classes du quotidien. Elles couvrent les catégories qui apparaissent le plus souvent dans du matériel d’image normal :
- Êtres vivants : personne, oiseau, chat, chien, cheval, mouton, vache, éléphant, ours, zèbre, girafe.
- Véhicules : voiture, vélo, moto, bus, train, camion, bateau, avion.
- Circulation et mobilier urbain : feu de circulation, borne incendie, panneau Stop, parcmètre, banc.
- Sport et loisirs : frisbee, skis, snowboard, ballon, cerf-volant, batte de baseball, gant de baseball, skateboard, planche de surf, raquette de tennis.
- Sac, vêtement, accessoires : sac à dos, parapluie, sac à main, cravate, valise.
- Cuisine : bouteille, verre à vin, tasse, fourchette, couteau, cuillère, bol, micro-ondes, four, grille-pain, évier, réfrigérateur.
- Aliments : banane, pomme, sandwich, orange, brocoli, carotte, hot-dog, pizza, donut, gâteau.
- Meubles : chaise, canapé, plante en pot, lit, table à manger, toilettes.
- Électronique : télévision, ordinateur portable, souris, télécommande, clavier, téléphone.
- Autres intérieurs : livre, horloge, vase, ciseaux, ours en peluche, sèche-cheveux, brosse à dents.
Avant l’analyse, vous pouvez filtrer la liste en cliquant sur les pilules de classes. Par défaut, les 80 classes sont actives — si vous n’avez besoin que de personnes et chiens, cliquez sur « Tout retirer » et activez les deux souhaitées. Cela raccourcit la liste de résultats et rend les données exportées directement utilisables.
Comment fonctionne l’analyse d’image frame par frame ?
L’outil décode votre vidéo avec les WebCodecs APIs natives de votre navigateur. Sur une vraie ligne de temps, le décodeur saute aux moments d’échantillonnage choisis — à 1 fps donc une fois par seconde, à 10 fps dix fois. Chaque frame ainsi extraite est convertie en un format d’image interne et passée au modèle d’IA chargé.
Le modèle effectue une détection par bounding-box classique : il divise le frame en interne en de nombreuses régions, estime pour chaque région une probabilité de classe et renvoie les régions dont la meilleure classe est au-dessus de votre seuil défini. Ces boîtes sont en coordonnées de pixels de la résolution vidéo d’origine — elles s’ajustent 1:1 sur votre fichier vidéo et ne nécessitent pas de re-calcul à partir de valeurs normalisées.
Pendant le traitement, vous voyez dans le navigateur une barre de progression plus une liste de frames qui défile. Sur la variante précise, une seule frame peut prendre une seconde pour de grandes vidéos ; sur la variante rapide, plutôt 300 à 500 millisecondes. À chaque changement d’état, vous pouvez arrêter l’analyse avec « Annuler » — les données des frames déjà traitées sont conservées.
Que sert le filtre de classes avant l’analyse ?
Vous posez le filtre de classes avant le démarrage, pas après. Cela a deux avantages :
Premièrement, le modèle est tout de même évalué pour les 80 classes, mais seules celles qui vous concernent atterrissent dans le flux de résultats. Cela réduit la quantité de données à l’export et rend le fichier JSON/CSV directement parlant — vous n’avez pas à le filtrer d’abord dans un tableur.
Deuxièmement, cela simplifie la Heatmap. Si vous ne vous intéressez qu’aux personnes, vous ne voulez pas d’une Heatmap où chaises et tables dominent les points chauds. Avec un filtre actif, la Heatmap ne montre que les positions des classes choisies — parfait pour analyses de mouvement ou Heatmaps de foule.
Cas d’usage classiques : seulement « personne » pour Crowd-Tracking ; « personne, chien » pour itinéraires de promenade canine ; « voiture, camion, bus, moto » pour flux routier ; « oiseau, ballon » pour captations animalières ou sportives.
Quels exports existent ?
Quatre formats d’export, chacun un clic pour télécharger :
- JSON — un fichier structuré avec liste de frames, horodatage, classe, confiance et boîte. Directement importable en Python (pandas.read_json), JavaScript (JSON.parse) ou n’importe quelle pipeline d’analytique. C’est l’export primaire pour vos propres évaluations.
- CSV — une ligne plate par détection, avec en-tête dans cet ordre fixe :
frame_index,timestamp_s,class_id,label,score,x1,y1,x2,y2. Idéal pour tableaux croisés dans Microsoft Excel, LibreOffice Calc ou Google Sheets. - SVG — un fichier vectoriel avec un bloc
<g>par keyframe ; chaque bloc montre les boîtes avec étiquette de classe et pourcentage de confiance. Directement utilisable pour des rapports, car les boîtes sont imprimables localement et non pixelisées. - Heatmap-PNG — une carte de pixels dans la résolution d’origine de la vidéo, où les centres de boîte de toutes les (ou des) détections filtrées sont tracés en plot de densité. Les zones claires signifient beaucoup de détections, les sombres en signifient peu. Pratique pour scènes sportives, analyses routières ou choix du recadrage parfait en workflows de montage vidéo.
Que signifie la confiance et comment choisir le bon seuil ?
Chaque détection porte un score de confiance entre 0 et 1. À 0,5 le modèle est environ « suffisamment sûr », à 0,9 très sûr. Le seuil que vous placez avant la passe filtre tout ce qui est en dessous de manière dure — ces détections n’apparaissent ni dans le flux ni dans l’export.
Recommandation : commencer avec le seuil par défaut 0,5. Si vous voyez dans le résultat beaucoup d’erreurs de détection (meubles comme personnes, ou ombres comme animaux), montez à 0,7. Si à l’inverse vous êtes sûr que des objets sont là mais qu’ils n’apparaissent pas, descendez à 0,4 ou 0,35.
Important : la confiance n’est pas une probabilité au sens statistique strict, mais un score propre au modèle. Pour des applications critiques — sécurité technique ou évaluations juridiques — vous devriez vérifier les résultats manuellement par échantillonnage.
À quelle vitesse l’outil tourne-t-il sur mon appareil ?
Trois facteurs déterminent la durée : longueur de la vidéo, cadence d’échantillonnage et variante de modèle.
- 5 minutes de vidéo, 1 fps, variante rapide : sur un portable actuel environ 100 secondes — la plupart des utilisateurs choisissent cette combinaison comme point de départ.
- 5 minutes de vidéo, 1 fps, variante précise : environ 5 minutes. Vaut la peine si la variante rapide fait trop d’erreurs sur votre matériel.
- 5 minutes de vidéo, 10 fps, variante rapide : environ 15 minutes. Sensé pour analyses de mouvement ou captations sportives où chaque seconde compte.
- Navigateur smartphone : environ trois fois plus lent qu’un portable. Pour les grandes vidéos, plutôt travailler sur le bureau.
Les estimations apparaissent après le chargement du modèle dans la barre d’état. Si le processus dure trop longtemps, vous pouvez à tout moment cliquer sur « Annuler » — les données des frames déjà traitées restent dans la liste de résultats et peuvent être exportées.
À quel point ma vie privée est-elle protégée ?
L’intégralité du traitement tourne sur votre appareil. Il n’y a pas d’upload, pas de composant serveur, pas d’inférence cloud. C’est une différence centrale avec de nombreux fournisseurs commerciaux où la vidéo est uploadée sur un serveur US, y est analysée et le résultat est renvoyé. Même si aucun tracking n’a lieu là-bas, la souveraineté des données n’est pas entre vos mains.
Ici la vidéo reste dans l’onglet du navigateur. À la fermeture de l’onglet, la mémoire est libérée et la vidéo disparaît. La seule connexion réseau que l’outil établit est le téléchargement unique du fichier de modèle au premier appel — ensuite l’outil tourne hors ligne.
C’est conforme au RGPD et compatible avec toutes les exigences de confidentialité que vous devez respecter dans des scénarios confidentiels ou juridiquement sensibles — captations sportives avec enfants, vidéos professionnelles avec personnes, matériel médical ou de sécurité.
Cas d’usage possibles
- Analyse sportive : nombre de joueurs à l’image au fil du temps, Heatmap des positions de joueurs, nombre d’apparitions de ballon.
- Flux routier : nombre de véhicules par seconde, Heatmap des nœuds routiers.
- Crowd-Counting : nombre de personnes à l’image par frame comme série temporelle CSV.
- Montage vidéo : Heatmap comme modèle de cropping, pour trouver le recadrage 9:16 parfait pour les réseaux sociaux.
- Recherche : observations animalières avec horodatages au lieu d’annotation manuelle.
- Contrôle de contenu : liste de toutes les classes apparaissant dans une vidéo avant publication.
Questions fréquentes
Dernière mise à jour :