Que fait précisément la détection d'objets vidéo ?

L'outil échantillonne votre vidéo à intervalles réguliers (1 à 10 images par seconde), envoie chaque image échantillonnée à travers un modèle d'IA et renvoie pour chaque objet détecté la classe (p. ex. personne, chien, voiture), la confiance (0 à 1) et la boîte en pixels (xyxy). Vous obtenez non pas un fichier vidéo coupé, mais des données structurées pour analyse ultérieure.

Quelles classes d'objets l'outil reconnaît-il ?

Au total, 80 classes du quotidien — personnes, animaux (chien, chat, oiseau, cheval, …), véhicules (voiture, vélo, moto, bus, …), meubles, équipement sportif, ustensiles de cuisine, électronique. Vous pouvez filtrer les classes avant l'analyse, pour que seules celles qui vous concernent soient comptées et dessinées.

Mes vidéos sont-elles uploadées ?

Non. L'analyse tourne entièrement dans votre navigateur. Ni la vidéo ni les boîtes ou classes calculées ne quittent votre appareil. Seul le modèle d'IA est chargé une fois au premier appel depuis un référentiel de modèles (environ 9 Mo pour la variante rapide, environ 43 Mo pour la précise) — aucune donnée vidéo n'est transmise, seulement le fichier de modèle.

En quoi diffèrent les variantes de modèle ?

La variante rapide (env. 9 Mo) privilégie la vitesse First-Inference et s'adapte aussi aux mobiles à mémoire serrée. La variante précise (env. 43 Mo) fournit des boîtes nettement plus précises et une confiance plus élevée, mais prend environ trois fois plus de temps par frame. Recommandation : d'abord vérifier avec la variante rapide que la reconnaissance fonctionne sur le matériel, puis lancer la passe finale avec la variante précise.

Que signifie le seuil de confiance ?

Chaque détection porte une valeur entre 0 et 1 — la certitude du modèle. 0,5 est un seuil par défaut éprouvé. Plus bas (p. ex. 0,3) trouve plus d'objets mais a plus de fausses détections. Plus haut (p. ex. 0,8) ne montre que des détections très sûres mais rate les petits objets ou ceux partiellement masqués. Pour des statistiques, 0,5 à 0,6 convient ; pour un contrôle visuel, 0,7 à 0,85.

Combien de temps dure l'analyse ?

Les facteurs principaux sont la longueur de la vidéo, la cadence d'échantillonnage et la variante de modèle. Exemple : vidéo de 5 minutes à 1 fps avec la variante rapide — environ 100 secondes sur un portable de milieu de gamme. Le même fichier avec la variante précise : environ 5 minutes. À 10 fps, le temps se multiplie en conséquence. L'estimation apparaît après le chargement du modèle dans la barre d'état.

À quoi sert la Heatmap ?

Le Heatmap-PNG agrège les centres de toutes les détections sur toute la longueur de la vidéo sur une carte de pixels en résolution d'origine. Vous voyez d'un coup d'œil où les mouvements se concentrent dans l'image — précieux pour analyses sportives, évaluations de flux routier ou choix des recadrages pour workflows de cropping. Les zones claires signifient beaucoup de détections, les sombres en signifient peu.

À quoi servent les exports JSON, CSV et SVG ?

Le **fichier JSON** contient par frame les listes de détection complètes avec horodatage, classe, confiance et boîte xyxy — directement utilisable en Python, JavaScript ou un tableur. Le **fichier CSV** aplatit la même chose en une ligne par détection — idéal pour tableaux croisés ou évaluation dans [Excel](https://www.microsoft.com/fr-fr/microsoft-365/excel) ou [Google Sheets](https://www.google.com/intl/fr_fr/sheets/about/). Le **bundle SVG** montre les boîtes directement sur chaque keyframe — bon pour rapports et échantillonnages visuels.

Détection d'objets vidéo — boîtes IA hors ligne dans le

Que fait la détection d’objets vidéo ?

La détection d’objets vidéo échantillonne votre vidéo à intervalles réguliers et envoie chaque frame échantillonné à travers un réseau de neurones spécialisé pour la détection d’objets. Pour chaque objet détecté, vous obtenez la classe (par exemple personne, chien ou voiture), la confiance entre 0 et 1 et la position en pixels comme bounding-box (xyxy : bord gauche, supérieur, droit, inférieur). Le résultat n’est pas un clip vidéo coupé, mais des données structurées — directement utilisables pour statistiques, évaluations, visualisations ou entrées dans des workflows en aval.

L’outil travaille entièrement dans l’onglet du navigateur via WebAssembly ou WebGPU. Aucune donnée vidéo n’est envoyée à un serveur. Seul le modèle d’IA est chargé une fois dans le cache du navigateur au premier appel — toutes les vidéos suivantes tournent ensuite entièrement hors ligne.

Quelles classes d’objets sont reconnues ?

Au total 80 classes du quotidien. Elles couvrent les catégories qui apparaissent le plus souvent dans du matériel d’image normal :

Êtres vivants : personne, oiseau, chat, chien, cheval, mouton, vache, éléphant, ours, zèbre, girafe.
Véhicules : voiture, vélo, moto, bus, train, camion, bateau, avion.
Circulation et mobilier urbain : feu de circulation, borne incendie, panneau Stop, parcmètre, banc.
Sport et loisirs : frisbee, skis, snowboard, ballon, cerf-volant, batte de baseball, gant de baseball, skateboard, planche de surf, raquette de tennis.
Sac, vêtement, accessoires : sac à dos, parapluie, sac à main, cravate, valise.
Cuisine : bouteille, verre à vin, tasse, fourchette, couteau, cuillère, bol, micro-ondes, four, grille-pain, évier, réfrigérateur.
Aliments : banane, pomme, sandwich, orange, brocoli, carotte, hot-dog, pizza, donut, gâteau.
Meubles : chaise, canapé, plante en pot, lit, table à manger, toilettes.
Électronique : télévision, ordinateur portable, souris, télécommande, clavier, téléphone.
Autres intérieurs : livre, horloge, vase, ciseaux, ours en peluche, sèche-cheveux, brosse à dents.

Avant l’analyse, vous pouvez filtrer la liste en cliquant sur les pilules de classes. Par défaut, les 80 classes sont actives — si vous n’avez besoin que de personnes et chiens, cliquez sur « Tout retirer » et activez les deux souhaitées. Cela raccourcit la liste de résultats et rend les données exportées directement utilisables.

Comment fonctionne l’analyse d’image frame par frame ?

L’outil décode votre vidéo avec les WebCodecs APIs natives de votre navigateur. Sur une vraie ligne de temps, le décodeur saute aux moments d’échantillonnage choisis — à 1 fps donc une fois par seconde, à 10 fps dix fois. Chaque frame ainsi extraite est convertie en un format d’image interne et passée au modèle d’IA chargé.

Le modèle effectue une détection par bounding-box classique : il divise le frame en interne en de nombreuses régions, estime pour chaque région une probabilité de classe et renvoie les régions dont la meilleure classe est au-dessus de votre seuil défini. Ces boîtes sont en coordonnées de pixels de la résolution vidéo d’origine — elles s’ajustent 1:1 sur votre fichier vidéo et ne nécessitent pas de re-calcul à partir de valeurs normalisées.

Pendant le traitement, vous voyez dans le navigateur une barre de progression plus une liste de frames qui défile. Sur la variante précise, une seule frame peut prendre une seconde pour de grandes vidéos ; sur la variante rapide, plutôt 300 à 500 millisecondes. À chaque changement d’état, vous pouvez arrêter l’analyse avec « Annuler » — les données des frames déjà traitées sont conservées.

Que sert le filtre de classes avant l’analyse ?

Vous posez le filtre de classes avant le démarrage, pas après. Cela a deux avantages :

Premièrement, le modèle est tout de même évalué pour les 80 classes, mais seules celles qui vous concernent atterrissent dans le flux de résultats. Cela réduit la quantité de données à l’export et rend le fichier JSON/CSV directement parlant — vous n’avez pas à le filtrer d’abord dans un tableur.

Deuxièmement, cela simplifie la Heatmap. Si vous ne vous intéressez qu’aux personnes, vous ne voulez pas d’une Heatmap où chaises et tables dominent les points chauds. Avec un filtre actif, la Heatmap ne montre que les positions des classes choisies — parfait pour analyses de mouvement ou Heatmaps de foule.

Cas d’usage classiques : seulement « personne » pour Crowd-Tracking ; « personne, chien » pour itinéraires de promenade canine ; « voiture, camion, bus, moto » pour flux routier ; « oiseau, ballon » pour captations animalières ou sportives.

Quels exports existent ?

Quatre formats d’export, chacun un clic pour télécharger :

JSON — un fichier structuré avec liste de frames, horodatage, classe, confiance et boîte. Directement importable en Python (pandas.read_json), JavaScript (JSON.parse) ou n’importe quelle pipeline d’analytique. C’est l’export primaire pour vos propres évaluations.
CSV — une ligne plate par détection, avec en-tête dans cet ordre fixe : frame_index, timestamp_s, class_id, label, score, x1, y1, x2, y2. Idéal pour tableaux croisés dans Microsoft Excel, LibreOffice Calc ou Google Sheets.
SVG — un fichier vectoriel avec un bloc <g> par keyframe ; chaque bloc montre les boîtes avec étiquette de classe et pourcentage de confiance. Directement utilisable pour des rapports, car les boîtes sont imprimables localement et non pixelisées.
Heatmap-PNG — une carte de pixels dans la résolution d’origine de la vidéo, où les centres de boîte de toutes les (ou des) détections filtrées sont tracés en plot de densité. Les zones claires signifient beaucoup de détections, les sombres en signifient peu. Pratique pour scènes sportives, analyses routières ou choix du recadrage parfait en workflows de montage vidéo.

Que signifie la confiance et comment choisir le bon seuil ?

Chaque détection porte un score de confiance entre 0 et 1. À 0,5 le modèle est environ « suffisamment sûr », à 0,9 très sûr. Le seuil que vous placez avant la passe filtre tout ce qui est en dessous de manière dure — ces détections n’apparaissent ni dans le flux ni dans l’export.

Recommandation : commencer avec le seuil par défaut 0,5. Si vous voyez dans le résultat beaucoup d’erreurs de détection (meubles comme personnes, ou ombres comme animaux), montez à 0,7. Si à l’inverse vous êtes sûr que des objets sont là mais qu’ils n’apparaissent pas, descendez à 0,4 ou 0,35.

Important : la confiance n’est pas une probabilité au sens statistique strict, mais un score propre au modèle. Pour des applications critiques — sécurité technique ou évaluations juridiques — vous devriez vérifier les résultats manuellement par échantillonnage.

À quelle vitesse l’outil tourne-t-il sur mon appareil ?

Trois facteurs déterminent la durée : longueur de la vidéo, cadence d’échantillonnage et variante de modèle.

5 minutes de vidéo, 1 fps, variante rapide : sur un portable actuel environ 100 secondes — la plupart des utilisateurs choisissent cette combinaison comme point de départ.
5 minutes de vidéo, 1 fps, variante précise : environ 5 minutes. Vaut la peine si la variante rapide fait trop d’erreurs sur votre matériel.
5 minutes de vidéo, 10 fps, variante rapide : environ 15 minutes. Sensé pour analyses de mouvement ou captations sportives où chaque seconde compte.
Navigateur smartphone : environ trois fois plus lent qu’un portable. Pour les grandes vidéos, plutôt travailler sur le bureau.

Les estimations apparaissent après le chargement du modèle dans la barre d’état. Si le processus dure trop longtemps, vous pouvez à tout moment cliquer sur « Annuler » — les données des frames déjà traitées restent dans la liste de résultats et peuvent être exportées.

À quel point ma vie privée est-elle protégée ?

L’intégralité du traitement tourne sur votre appareil. Il n’y a pas d’upload, pas de composant serveur, pas d’inférence cloud. C’est une différence centrale avec de nombreux fournisseurs commerciaux où la vidéo est uploadée sur un serveur US, y est analysée et le résultat est renvoyé. Même si aucun tracking n’a lieu là-bas, la souveraineté des données n’est pas entre vos mains.

Ici la vidéo reste dans l’onglet du navigateur. À la fermeture de l’onglet, la mémoire est libérée et la vidéo disparaît. La seule connexion réseau que l’outil établit est le téléchargement unique du fichier de modèle au premier appel — ensuite l’outil tourne hors ligne.

C’est conforme au RGPD et compatible avec toutes les exigences de confidentialité que vous devez respecter dans des scénarios confidentiels ou juridiquement sensibles — captations sportives avec enfants, vidéos professionnelles avec personnes, matériel médical ou de sécurité.

Cas d’usage possibles

Analyse sportive : nombre de joueurs à l’image au fil du temps, Heatmap des positions de joueurs, nombre d’apparitions de ballon.
Flux routier : nombre de véhicules par seconde, Heatmap des nœuds routiers.
Crowd-Counting : nombre de personnes à l’image par frame comme série temporelle CSV.
Montage vidéo : Heatmap comme modèle de cropping, pour trouver le recadrage 9:16 parfait pour les réseaux sociaux.
Recherche : observations animalières avec horodatages au lieu d’annotation manuelle.
Contrôle de contenu : liste de toutes les classes apparaissant dans une vidéo avant publication.

Détection d'objets vidéo — boîtes hors ligne dans le navigateur

Comment ça marche

Choisir la vidéo

Régler les paramètres d'analyse

Démarrer l'analyse et exporter le résultat

Confidentialité

Comment utiliser cet outil ?