Que signifie « Segment Anything » — que fait l'outil ?

Segment Anything est un procédé IA qui, d'un seul clic, extrait le contour complet d'un objet dans une photo. Vous touchez l'image — l'outil produit un masque pixel-précis avec lequel vous pouvez détourer l'objet ou changer le fond. Le procédé fonctionne pour tout contenu d'image : personnes, animaux, produits, objets, plantes, meubles.

L'outil fonctionne-t-il hors ligne et sans inscription ?

Oui. Le modèle IA est chargé une fois dans le cache du navigateur au premier appel (environ 21 Mo en variante rapide, environ 106 Mo en variante précise). Ensuite, toutes les autres segmentations tournent intégralement hors ligne. Pas d'inscription, pas d'e-mail, pas de cookies tiers, pas de téléversement serveur.

Ma photo reste-t-elle vraiment privée ?

Oui. La segmentation tourne exclusivement sur votre appareil via [WebAssembly](https://fr.wikipedia.org/wiki/WebAssembly) ou [WebGPU](https://fr.wikipedia.org/wiki/WebGPU). La photo ne quitte votre onglet de navigateur à aucun moment — ni l'original ni le masque calculé ne sont envoyés à un serveur. Seul le modèle IA est chargé une fois depuis un stockage public — aucune donnée d'image n'est transmise, seul le fichier modèle.

Quelle est la différence entre les modes clic, box et affiner ?

**Clic** est le défaut — un seul tap sur l'objet produit la sélection. **Box** est utile quand plusieurs objets similaires sont côte à côte (par ex. plusieurs chaises) — un rectangle précise quel objet est visé. **Affiner** est le mode puissance : clics positifs (vert) ajoutent des zones, Maj-clics (orange) retirent des zones. Le masque s'actualise en direct, en moins de 100 ms par clic.

Que sont les trois propositions de masque sous l'image ?

Le modèle livre par clic trois masques candidats à granularités différentes : le meilleur score IoU (confiance) est présélectionné. Les propositions alternatives montrent souvent des sous-sélections sensées — sur un portrait par ex. « tête seule », « tête+épaules » et « personne entière ». Touchez une proposition pour changer le masque.

Pourquoi la première sélection au clic dure-t-elle plus longtemps que les suivantes ?

L'outil utilise un procédé en deux étapes : sur la première image, l'encodeur d'image tourne une fois (environ 2 à 6 secondes, selon appareil et modèle). Ensuite l'outil stocke la représentation d'image en mémoire, et chaque clic suivant n'a besoin que du petit décodeur de masque — typiquement sous 100 millisecondes. L'affinement ressemble ainsi à du temps réel.

À quel point la segmentation IA est-elle fiable ?

Très bonne pour des objets nettement délimités sur des photos quotidiennes — personnes, animaux, produits, meubles, véhicules. Plus difficiles : objets transparents (verre, voile), cheveux/fourrure fins avec arrière-plan visible et réflexions. À cause du règlement IA de l'UE art. 50, l'outil affiche au-dessus de chaque résultat une indication que la sélection est une estimation — pour des usages critiques, vérifier avant utilisation.

Que puis-je faire avec le masque ?

Trois workflows typiques : **détourage** — l'objet sur fond transparent en PNG pour composings, photos produit, graphiques social media. **Masque inverse** — garder le fond, retirer l'objet (pour workflows de suppression). **Masque pur** — PNG noir-blanc pour [Photoshop](https://www.adobe.com/products/photoshop.html), [Affinity Photo](https://affinity.serif.com/fr/photo/), [GIMP](https://www.gimp.org/) comme masque de sélection, [Blender](https://www.blender.org/) comme canal alpha.

Segment Anything — détourer des objets en un clic

Que fait l’outil ?

Segment Anything extrait depuis un seul clic dans une photo le contour complet d’un objet. Vous touchez l’image, l’outil calcule un masque pixel-précis, et vous obtenez trois sorties : l’objet détouré en PNG (fond transparent), le masque pur noir-blanc (pour programmes de retouche), et le masque inverse (garder le fond, retirer l’objet). Tout se passe directement dans votre navigateur via WebAssembly ou WebGPU — aucune photo n’est envoyée à un serveur.

Le cœur du procédé est un réseau neuronal spécialisé pour la segmentation d’image basée prompt. Vous donnez au modèle un « prompt » — un point de clic, un rectangle ou une combinaison de points positifs et négatifs — et il livre le masque associé. Cela fonctionne pour tout objet : personnes, animaux, meubles, produits, plantes, véhicules. Il n’est pas limité à une liste de classes comme les anciens procédés.

Comment fonctionne la segmentation dans votre navigateur ?

L’outil travaille en deux phases. En phase d’analyse, un encodeur d’image tourne une fois sur votre photo — il extrait les représentations spatiales d’image dans un format interne nécessaire à la sélection suivante. Cette phase dure selon le modèle et l’appareil environ 2 à 6 secondes et se fait une seule fois par image.

En phase de sélection, un petit décodeur de masque tourne à chaque clic. Comme l’encodeur a déjà fait son travail et que la représentation est en mémoire, cette phase est dramatiquement plus rapide — typiquement sous 100 millisecondes par clic. L’affinement ressemble ainsi à une interaction en direct : vous touchez, le masque s’actualise, vous touchez encore, le masque s’adapte.

Cette dichotomie est l’astuce de performance centrale face aux outils anciens qui repassent tout le modèle à chaque clic — là chaque clic dure plusieurs secondes, rendant l’affinement pratiquement impossible.

Quels modes de sélection y a-t-il ?

Mode clic est le défaut. Vous touchez une fois l’objet cible, et le modèle reconnaît automatiquement le contour associé. Fonctionne excellemment pour des objets nettement délimités avec contraste au fond — personnes devant un mur, produits sur une table, animaux dans un paysage.

Mode box est utile quand plusieurs objets similaires sont côte à côte. Vous tirez un rectangle autour de l’objet voulu, et le modèle sait exactement lequel vous visez. Exemple classique : photos avec plusieurs personnes, où un clic isolé serait ambigu.

Mode affiner est le mode puissance. Toucher ajoute un point positif (inclus dans le masque, affiché en couleur de surbrillance), Maj-toucher ajoute un point négatif (retiré du masque, affiché en couleur d’erreur). Avec deux ou trois points supplémentaires, on peut produire précisément des sélections complexes — par exemple « seulement le t-shirt, pas la peau ».

Que sont les trois propositions de masque ?

Le modèle livre par prompt non un mais trois masques à granularités différentes. Les propositions sont triées par confiance estimée (Intersection-over-Union, IoU) — la plus probable est présélectionnée. Vous pouvez basculer entre les trois sans recalcul.

En pratique les trois propositions ressemblent souvent à : sur un clic portrait le modèle livre « tête seule », « tête et épaules » et « personne entière ». Sur un clic voiture « carrosserie seule », « voiture y compris vitres » et « voiture y compris ombre au sol ». Ces propositions multiples économisent le clic d’affinement suivant quand la granularité immédiate n’est pas celle voulue.

À quoi sert le masque ?

La sortie est universelle, l’outil propose trois options de téléchargement :

Détourage PNG — l’objet sur fond transparent. Directement utilisable pour des composings dans Adobe Photoshop, photos produit sur une plateforme de vente, graphiques social media à fond transparent, ou overlay pour montage vidéo.
Masque PNG — image noir-blanc, blanc = objet, noir = fond. Entrée pour vos propres workflows dans Affinity Photo, GIMP en « charger sélection depuis masque », ou comme canal alpha dans Blender pour composings 3D.
Masque inverse / détourage inversé — garder le fond, retirer l’objet. Pratique pour les workflows « retirer une personne d’une photo » en combinaison avec un Content-Aware Fill dans la retouche.

Toutes les sorties sont en PNG sans perte à la résolution originale de votre photo. Pas de filigranes cachés, pas de conversions de format, pas de pertes de qualité.

Quand l’outil livre-t-il des résultats particulièrement bons ?

Objets nettement délimités à bon contraste sont le sweet spot. Une personne devant un mur uni, un produit sur une table rangée, un animal dans un paysage typique — un seul clic suffit souvent pour un résultat prêt à l’impression.

Même les scènes plus difficiles fonctionnent bien mais demandent affinement : sur cheveux fins avec arrière-plan visible, un clic d’affinement sur la pointe de cheveux livre le contour manquant. Pour une personne qui tient un objet devant elle (par ex. smartphone, verre), un clic négatif sur l’objet sépare proprement.

Cas difficiles : objets entièrement transparents (verre, gouttelettes), détail très fin (pointes de cheveux sans contraste), réflexions et miroirs, et images en basse résolution (sous 256×256). Dans ces cas, une retouche manuelle dans un programme d’image est sensée — le masque de l’outil est alors un bon point de départ, pas un produit final.

Ma photo est-elle vraiment privée ?

La segmentation tourne exclusivement sur votre appareil. Ni l’original ni le masque calculé ne sont envoyés à un serveur, stockés ou analysés. Pas de bandeau cookies tiers, pas d’inscription et pas de tracking — pas même d’analyse d’usage anonyme.

Seule exception : le téléchargement unique du modèle au tout premier appel. Le fichier modèle est chargé une fois depuis un stockage public de modèles. Cette requête ne contient que l’URL du fichier modèle. Aucune donnée d’image, aucun ID utilisateur et aucune information personnellement identifiable n’est transmise. Après le premier chargement, le modèle vit dans le cache du navigateur, le CDN n’est plus contacté.

Pour du matériel sensible comme prototypes produit, visuels confidentiels ou prises non publiées, c’est l’avantage décisif face aux outils cloud qui doivent téléverser le fichier — chez kittokit, personne sauf vous ne voit la photo.

Que dit le règlement IA de l’UE sur les contenus générés par IA ?

À partir d’août 2026, l’EU AI Act article 50 prescrit que les contenus générés par IA doivent être étiquetés comme tels. L’outil affiche donc au-dessus de chaque résultat une indication visible fixe : « Cette sélection a été estimée par un modèle IA. En cas d’illusions optiques ou de scènes inhabituelles, vérifier. » Cette indication est obligatoire et non masquable.

En pratique : le masque est une proposition, pas une classification contraignante. Pour des fins créatives (composings, photos produit, social media), la précision est plus que suffisante ; pour des applications critiques de sécurité (analyse d’image médicale, identification juridique, systèmes autonomes), un outil professionnel avec garantie de classification est nécessaire — pas une estimation IA locale au navigateur.

Questions fréquentes

Les questions principales autour de l’usage, la qualité et la confidentialité :

Comment détourer un objet en un clic ?

Téléversez votre photo dans l’outil ci-dessus — après environ 3 secondes de phase d’analyse, vous cliquez une fois sur l’objet. Le masque apparaît immédiatement. Trois propositions disponibles, la plus probable est présélectionnée. Télécharger masque PNG ou détourage PNG.

L’outil fonctionne-t-il hors ligne ?

Oui. Au premier appel, le navigateur télécharge le modèle IA une seule fois (environ 21 Mo rapide, environ 106 Mo précis). Ensuite, toutes les autres segmentations tournent hors ligne depuis le cache du navigateur.

Quels formats d’image puis-je téléverser ?

Entrée : PNG, JPG, WebP, AVIF et HEIC (photos iPhone). HEIC est automatiquement décodé. Sortie : PNG sans perte (masque + détourage + masque inverse) en résolution originale.

Combien de temps dure une sélection ?

Environ 2 à 6 secondes par image pour la phase d’analyse unique, puis sous 100 millisecondes par clic d’affinement.

Quels outils d’image conviennent ?

Autres outils de l’écosystème kittokit qui correspondent bien à la segmentation d’objet :

Supprimer le fond — détourage automatique sans clic, idéal pour portraits et produits à fond clair.
Photo en coloriage — dessin au trait au lieu de masque, pour workflows print avec caractère coloriage.
Créer une carte de profondeur — profondeur spatiale au lieu de masque d’objet, complète la segmentation pour workflows 3D.
Agrandir une image — mettre à l’échelle les images d’entrée avant segmentation, si la source est sous 512×512.
Convertisseur de format d’image — convertir masques ou détourages vers d’autres formats (PNG sans perte vers WebP compact).