Aller au contenu
Runs local · no upload

Générer descriptions d'image automatiquement

Photo dedans, alt-text prêt dehors. Un réseau de neurones spécialisé décrit l'image — directement sur votre appareil, sans que le fichier ne soit jamais uploadé.

Drop your image here

Or click — PNG, JPG, WebP, AVIF or HEIC up to 15 MB

PNGJPGWEBPAVIFHEICHEIF
Description mode

Comment ça marche

  1. 01

    Choisir l'image

    Glissez un fichier en drag & drop dans la zone ou choisissez-le depuis l'appareil. PNG, JPG, WebP, AVIF ou HEIC jusqu'à 15 Mo.

  2. 02

    Choisir mode & contexte

    Court pour alt-text avec cap à 125 caractères, Long pour captions SEO, Détaillé pour scènes étoffées. Optionnel : afficher le contexte de page pour que le modèle connaisse le cadre de référence.

  3. 03

    Vérifier et sauvegarder la description

    La sortie apparaît dans un champ texte éditable avec compteur de caractères et avertissements WCAG. Copier directement ou télécharger en .txt.

Confidentialité

Le traitement se passe exclusivement sur votre appareil. Vos images ne quittent pas le navigateur, ne sont pas transmises à des serveurs et sont supprimées après fermeture de l'onglet. L'outil est ainsi utilisable conformément au RGPD — y compris pour photos produit, documents professionnels ou visuels confidentiels.

Les sites web accessibles ont besoin d'alt-texts pour chaque image, les boutiques en ligne veulent des captions produit, et les blogs vivent de légendes optimisées SEO. Vous obtenez les deux en une étape — la description est générée entièrement dans le navigateur par IA, sans que votre photo n'aille sur un serveur. Trois modes : alt-text court avec vérification WCAG, caption longue ou description de scène détaillée.

01 — Mode d’emploi

Comment utiliser cet outil ?

  1. Choisir une image ou la déposer en glisser-déposer (PNG, JPG, WebP, AVIF ou HEIC jusqu'à 15 Mo)
  2. Choisir le mode : Court (alt-text, max. 125 caractères), Long ou Détaillé
  3. Optionnel : saisir un contexte de page (p. ex. « page produit chaussures de randonnée ») pour focaliser la description
  4. Téléchargement unique du modèle en arrière-plan (environ 75 Mo), puis mis en cache
  5. Copier la description ou la télécharger en .txt

Que fait l’outil ?

L’outil produit à partir d’une image une description en langage naturel — sous forme d’alt-text court, de caption plus longue ou de récit de scène détaillé. Le calcul tourne entièrement dans votre navigateur via WebAssembly et un réseau de neurones spécialisé qui a été entraîné exactement pour les tâches image-vers-texte. Trois modes : « Court (alt-text) » livre une description sous 125 caractères, qui tient directement dans l’attribut alt d’une balise <img> ; « Long » produit une caption plus étoffée pour légendes d’image et posts réseaux sociaux ; « Détaillé » va en profondeur et décrit aussi l’ambiance et les éléments d’arrière-plan.

Une couche d’avertissement WCAG est en outre incluse, qui vérifie chaque résultat en direct contre les recommandations Web Accessibility : compteur de caractères avec affichage en feu tricolore au dépassement de la limite de 125 caractères, détection automatique de tournures redondantes comme « image de … » et suggestion en un clic de nettoyage. Cela empêche les anti-patterns les plus fréquents qui dérangent les utilisateurs de lecteurs d’écran sur le web.

Comment fonctionne l’outil ?

Décrire des images est un problème du domaine Computer Vision — l’ordinateur doit reconnaître à partir de valeurs de pixel ce qui est sur l’image, et le traduire en phrase grammaticalement correcte. Les algorithmes classiques échouent : ils reconnaissent couleurs, arêtes et formes simples, mais pas le sens. Les modèles vision-langage modernes résolvent la tâche avec une architecture en deux étages — un encodeur transforme l’image en représentation compacte, un décodeur en écrit du texte.

Tout le processus tourne dans votre navigateur. Au premier appel, le modèle est chargé une fois depuis un stockage de modèle public (environ 75 Mo en variante rapide, environ 90 Mo en plus précise), puis il est dans le cache du navigateur et travaille hors ligne. Chaque description suivante dure selon appareil et modes 3 à 15 secondes. En arrière-plan, l’image est normalisée à une taille compatible avec le modèle, passée à travers le réseau encodeur, et le décodeur produit token par token la phrase de description.

L’outil supporte deux variantes : la rapide tourne sur tout appareil y compris smartphone et tablette, la plus précise est pensée pour desktops modernes et smartphones récents et livre tendanciellement des descriptions plus précises — surtout pour photos produit et scènes avec plusieurs objets.

Quand l’outil livre-t-il de bons résultats ?

Photos avec un motif principal clair sont le sweet spot. Portraits, photos animalières, paysages, photos produit avec sujet centré, prises d’intérieur — partout où l’image montre une scène univoque, le modèle livre des descriptions utilisables. Photos stock, images de blog et posts réseaux sociaux en profitent aussi.

Difficile dans trois cas :

  • Marques, logos, texte dans l’image — le modèle reconnaît rarement des noms de marque concrets ou ne fait pas d’OCR. Pour texte dans l’image, notre outil séparé Image en texte est le bon choix.
  • Images très abstraites ou décoratives — motifs, dégradés, icônes. Ici, le modèle produit souvent des descriptions trop génériques comme « Un motif coloré ». Pour images décoratives, alt="" (alt-text vide) suffit de toute façon sur le web.
  • Attente d’identification de personnes — le modèle décrit apparence et pose, mais ne donne pas de noms. C’est volontaire : la reconnaissance faciale serait délicate au regard du RGPD, l’outil est limité à une description de contenu neutre.

Sur résultats peu satisfaisants, le champ contexte optionnel aide : « Contexte de page : boutique en ligne équipement randonnée » focalise le modèle sur le bon espace lexical et thématique, et vous obtenez à la place des descriptions comme « Chaussure de randonnée en cuir brun avec semelle rouge » au lieu de « Une chaussure ».

Pourquoi la description sort-elle en anglais ?

Les modèles actuellement disponibles compatibles navigateur ont été entraînés sur un jeu de données anglophone (MS-COCO Captions). La description est donc en v1 toujours en anglais — même quand vous travaillez sur la page française. Une version française est sur la roadmap, dès qu’un modèle vision-langage français sous le seuil de taille navigateur (≤100 Mo) sera disponible. Pour le workflow d’aujourd’hui, la sortie anglaise se retravaille avec n’importe quel outil de traduction — ou s’utilise directement en style d’écriture anglais comme alt-text dans des sites multilingues, puisque les alt-texts sont de toute façon souvent écrits en anglais.

Confidentialité — 100 % dans le navigateur

L’analyse d’image se passe exclusivement en local sur votre appareil. Ni l’original ni la description générée ne sont envoyés à un serveur, stockés ou analysés. Il n’y a pas de bannière cookie pour des tiers, pas d’inscription et pas de suivi — pas non plus de statistiques d’usage anonymes.

Une exception est le téléchargement unique du modèle au premier appel : le fichier modèle est chargé une fois depuis un stockage de modèle public. Cette requête contient exclusivement l’URL du fichier modèle. Aucune donnée d’image et aucun ID utilisateur n’est transmis. Techniquement, le fournisseur de modèle voit l’adresse IP et le User-Agent du navigateur d’où provient le téléchargement — les mêmes données que voit aussi votre fournisseur Internet à chaque appel de page web. Après le premier chargement, le modèle est dans le cache du navigateur, le CDN n’est plus contacté.

Pour images sensibles comme prototypes produit, visuels marketing confidentiels ou photos presse non publiées, c’est exactement l’avantage décisif par rapport aux services cloud qui doivent obligatoirement uploader l’image. Plus de détails se trouvent dans la politique de confidentialité.

Que prescrit l’EU AI Act pour les descriptions IA ?

À partir d’août 2026, l’EU AI Act dans l’article 50 exige que les contenus générés par IA soient marqués comme tels. L’outil affiche pour cela au-dessus de chaque description générée un avertissement fixe, non-masquable : « Cette description a été générée par un modèle IA. À vérifier avant utilisation — les modèles IA peuvent mal interpréter ou inventer les contenus d’image. » Ce disclaimer est obligatoire et ne peut pas être désactivé.

Concrètement cela signifie : la sortie est une suggestion, pas un fait engageant. Les modèles IA « hallucinent » occasionnellement des contenus absents de l’image, ou interprètent à tort des scènes ambiguës. Surtout pour alt-texts d’accessibilité, descriptions à pertinence juridique ou médicale et tout ce qui est officiellement publié, un contrôle visuel rapide avant reprise vaut la peine.

Questions fréquentes

Les questions les plus fréquentes sur l’utilisation, la qualité et la confidentialité :

Comment générer des alt-texts pour images automatiquement ?

Chargez votre image dans l’outil ci-dessus — elle est décrite entièrement dans le navigateur par IA. Le mode « Court (alt-text) » livre une description sous 125 caractères, qui tient directement dans alt="…". Gratuit, sans inscription, sans suivi.

Qu’est-ce qu’un bon alt-text selon WCAG ?

Un bon alt-text décrit contenu et fonction d’une image en maximum 125 caractères, sans « image de … » ou extension de fichier. L’outil vous avertit automatiquement quand ces anti-patterns apparaissent, et propose une version nettoyée.

Le descripteur IA fonctionne-t-il hors ligne ?

Oui. Au premier appel, le navigateur télécharge une fois le modèle IA (environ 75 Mo). Ensuite, toutes les descriptions tournent entièrement hors ligne depuis le cache du navigateur.

Quels formats d’image puis-je charger ?

Entrée : PNG, JPG, WebP, AVIF et HEIC (photos iPhone). HEIC est automatiquement dépaqueté avant que le modèle tourne. La sortie est du texte — fichier .txt ou directement dans le presse-papiers.

Combien de temps dure une description ?

Après le téléchargement unique du modèle, la description dure typiquement 3 à 15 secondes — selon appareil, variante choisie et mode de détail. Pendant le traitement, une barre de progression montre l’état actuel.

Quels outils image sont liés ?

Autres outils de l’écosystème kittokit qui collent au sujet :

  • Image en texte (OCR) — lire le texte dans les images, également entièrement dans le navigateur. Utilisez cet outil quand vous avez besoin de texte dans l’image (scans, captures d’écran).
  • Enlever l’arrière-plan — détourage basé IA, souvent l’étape préalable pour des descriptions produit propres.
  • Agrandir image — passer de petites vignettes à la résolution impression, avant de générer des alt-texts.
  • Visionneuse EXIF — lire les métadonnées de l’image (appareil, GPS, date) — complémentaire à la description de contenu.

Dernière mise à jour :

Vous pourriez aussi aimer