Mon image reste-t-elle privée — est-elle chargée sur un serveur ?

Non. L'analyse de l'image se passe exclusivement sur votre appareil via [WebAssembly](https://fr.wikipedia.org/wiki/WebAssembly). L'image ne quitte l'onglet du navigateur à aucun moment. Seul le modèle IA est chargé une fois depuis un stockage de modèle public — aucune donnée d'image n'est transmise, seul le fichier modèle.

Pourquoi la description sort-elle en anglais — même sur la page française ?

Les modèles de description d'image actuellement disponibles compatibles navigateur ont été entraînés sur un jeu de données anglophone (MS-COCO). La description est donc en v1 toujours en anglais — la qualité des traductions françaises depuis cette branche de modèle est encore en deçà de l'original. Un modèle français avec entraînement autonome est en préparation ; dès qu'il passe sous le seuil de taille navigateur (≤100 Mo), l'outil basculera automatiquement.

Puis-je piloter la description avec mon propre contexte ?

Oui. L'outil connaît deux champs de saisie optionnels : « Contexte de page » (p. ex. « page produit chaussures de randonnée ») entre dans le prompt et biaise le modèle vers le thème. « Préfixe d'image » (p. ex. « Logo : » ou « Photo produit : ») est mis sans modification devant la description IA — utile pour des listes d'images qui partagent toutes le même schéma.

Quelle est la fiabilité d'une description d'image générée par IA ?

Une description IA est une estimation, pas un fait. Les modèles modernes reconnaissent objets et scènes avec une bonne précision, mais noms, marques, texte dans l'image et détails peuvent être faux — et peuvent inventer des contenus absents de l'image (« hallucination »). L'outil affiche pour cela au-dessus de chaque sortie un avertissement non-masquable selon l'EU AI Act Art. 50 : à vérifier brièvement avant utilisation, corriger si nécessaire.

Description d'image IA — alt-text dans le navigateur

Que fait l’outil ?

L’outil produit à partir d’une image une description en langage naturel — sous forme d’alt-text court, de caption plus longue ou de récit de scène détaillé. Le calcul tourne entièrement dans votre navigateur via WebAssembly et un réseau de neurones spécialisé qui a été entraîné exactement pour les tâches image-vers-texte. Trois modes : « Court (alt-text) » livre une description sous 125 caractères, qui tient directement dans l’attribut alt d’une balise <img> ; « Long » produit une caption plus étoffée pour légendes d’image et posts réseaux sociaux ; « Détaillé » va en profondeur et décrit aussi l’ambiance et les éléments d’arrière-plan.

Une couche d’avertissement WCAG est en outre incluse, qui vérifie chaque résultat en direct contre les recommandations Web Accessibility : compteur de caractères avec affichage en feu tricolore au dépassement de la limite de 125 caractères, détection automatique de tournures redondantes comme « image de … » et suggestion en un clic de nettoyage. Cela empêche les anti-patterns les plus fréquents qui dérangent les utilisateurs de lecteurs d’écran sur le web.

Comment fonctionne l’outil ?

Décrire des images est un problème du domaine Computer Vision — l’ordinateur doit reconnaître à partir de valeurs de pixel ce qui est sur l’image, et le traduire en phrase grammaticalement correcte. Les algorithmes classiques échouent : ils reconnaissent couleurs, arêtes et formes simples, mais pas le sens. Les modèles vision-langage modernes résolvent la tâche avec une architecture en deux étages — un encodeur transforme l’image en représentation compacte, un décodeur en écrit du texte.

Tout le processus tourne dans votre navigateur. Au premier appel, le modèle est chargé une fois depuis un stockage de modèle public (environ 75 Mo en variante rapide, environ 90 Mo en plus précise), puis il est dans le cache du navigateur et travaille hors ligne. Chaque description suivante dure selon appareil et modes 3 à 15 secondes. En arrière-plan, l’image est normalisée à une taille compatible avec le modèle, passée à travers le réseau encodeur, et le décodeur produit token par token la phrase de description.

L’outil supporte deux variantes : la rapide tourne sur tout appareil y compris smartphone et tablette, la plus précise est pensée pour desktops modernes et smartphones récents et livre tendanciellement des descriptions plus précises — surtout pour photos produit et scènes avec plusieurs objets.

Quand l’outil livre-t-il de bons résultats ?

Photos avec un motif principal clair sont le sweet spot. Portraits, photos animalières, paysages, photos produit avec sujet centré, prises d’intérieur — partout où l’image montre une scène univoque, le modèle livre des descriptions utilisables. Photos stock, images de blog et posts réseaux sociaux en profitent aussi.

Difficile dans trois cas :

Marques, logos, texte dans l’image — le modèle reconnaît rarement des noms de marque concrets ou ne fait pas d’OCR. Pour texte dans l’image, notre outil séparé Image en texte est le bon choix.
Images très abstraites ou décoratives — motifs, dégradés, icônes. Ici, le modèle produit souvent des descriptions trop génériques comme « Un motif coloré ». Pour images décoratives, alt="" (alt-text vide) suffit de toute façon sur le web.
Attente d’identification de personnes — le modèle décrit apparence et pose, mais ne donne pas de noms. C’est volontaire : la reconnaissance faciale serait délicate au regard du RGPD, l’outil est limité à une description de contenu neutre.

Sur résultats peu satisfaisants, le champ contexte optionnel aide : « Contexte de page : boutique en ligne équipement randonnée » focalise le modèle sur le bon espace lexical et thématique, et vous obtenez à la place des descriptions comme « Chaussure de randonnée en cuir brun avec semelle rouge » au lieu de « Une chaussure ».

Pourquoi la description sort-elle en anglais ?

Les modèles actuellement disponibles compatibles navigateur ont été entraînés sur un jeu de données anglophone (MS-COCO Captions). La description est donc en v1 toujours en anglais — même quand vous travaillez sur la page française. Une version française est sur la roadmap, dès qu’un modèle vision-langage français sous le seuil de taille navigateur (≤100 Mo) sera disponible. Pour le workflow d’aujourd’hui, la sortie anglaise se retravaille avec n’importe quel outil de traduction — ou s’utilise directement en style d’écriture anglais comme alt-text dans des sites multilingues, puisque les alt-texts sont de toute façon souvent écrits en anglais.

Confidentialité — 100 % dans le navigateur

L’analyse d’image se passe exclusivement en local sur votre appareil. Ni l’original ni la description générée ne sont envoyés à un serveur, stockés ou analysés. Il n’y a pas de bannière cookie pour des tiers, pas d’inscription et pas de suivi — pas non plus de statistiques d’usage anonymes.

Une exception est le téléchargement unique du modèle au premier appel : le fichier modèle est chargé une fois depuis un stockage de modèle public. Cette requête contient exclusivement l’URL du fichier modèle. Aucune donnée d’image et aucun ID utilisateur n’est transmis. Techniquement, le fournisseur de modèle voit l’adresse IP et le User-Agent du navigateur d’où provient le téléchargement — les mêmes données que voit aussi votre fournisseur Internet à chaque appel de page web. Après le premier chargement, le modèle est dans le cache du navigateur, le CDN n’est plus contacté.

Pour images sensibles comme prototypes produit, visuels marketing confidentiels ou photos presse non publiées, c’est exactement l’avantage décisif par rapport aux services cloud qui doivent obligatoirement uploader l’image. Plus de détails se trouvent dans la politique de confidentialité.

Que prescrit l’EU AI Act pour les descriptions IA ?

À partir d’août 2026, l’EU AI Act dans l’article 50 exige que les contenus générés par IA soient marqués comme tels. L’outil affiche pour cela au-dessus de chaque description générée un avertissement fixe, non-masquable : « Cette description a été générée par un modèle IA. À vérifier avant utilisation — les modèles IA peuvent mal interpréter ou inventer les contenus d’image. » Ce disclaimer est obligatoire et ne peut pas être désactivé.

Concrètement cela signifie : la sortie est une suggestion, pas un fait engageant. Les modèles IA « hallucinent » occasionnellement des contenus absents de l’image, ou interprètent à tort des scènes ambiguës. Surtout pour alt-texts d’accessibilité, descriptions à pertinence juridique ou médicale et tout ce qui est officiellement publié, un contrôle visuel rapide avant reprise vaut la peine.

Questions fréquentes

Les questions les plus fréquentes sur l’utilisation, la qualité et la confidentialité :

Comment générer des alt-texts pour images automatiquement ?

Chargez votre image dans l’outil ci-dessus — elle est décrite entièrement dans le navigateur par IA. Le mode « Court (alt-text) » livre une description sous 125 caractères, qui tient directement dans alt="…". Gratuit, sans inscription, sans suivi.

Qu’est-ce qu’un bon alt-text selon WCAG ?

Un bon alt-text décrit contenu et fonction d’une image en maximum 125 caractères, sans « image de … » ou extension de fichier. L’outil vous avertit automatiquement quand ces anti-patterns apparaissent, et propose une version nettoyée.

Le descripteur IA fonctionne-t-il hors ligne ?

Oui. Au premier appel, le navigateur télécharge une fois le modèle IA (environ 75 Mo). Ensuite, toutes les descriptions tournent entièrement hors ligne depuis le cache du navigateur.

Quels formats d’image puis-je charger ?

Entrée : PNG, JPG, WebP, AVIF et HEIC (photos iPhone). HEIC est automatiquement dépaqueté avant que le modèle tourne. La sortie est du texte — fichier .txt ou directement dans le presse-papiers.

Combien de temps dure une description ?

Après le téléchargement unique du modèle, la description dure typiquement 3 à 15 secondes — selon appareil, variante choisie et mode de détail. Pendant le traitement, une barre de progression montre l’état actuel.

Quels outils image sont liés ?

Autres outils de l’écosystème kittokit qui collent au sujet :

Image en texte (OCR) — lire le texte dans les images, également entièrement dans le navigateur. Utilisez cet outil quand vous avez besoin de texte dans l’image (scans, captures d’écran).
Enlever l’arrière-plan — détourage basé IA, souvent l’étape préalable pour des descriptions produit propres.
Agrandir image — passer de petites vignettes à la résolution impression, avant de générer des alt-texts.
Visionneuse EXIF — lire les métadonnées de l’image (appareil, GPS, date) — complémentaire à la description de contenu.

Générer descriptions d'image automatiquement

Comment ça marche

Choisir l'image

Choisir mode & contexte

Vérifier et sauvegarder la description

Confidentialité

Comment utiliser cet outil ?