Wie benutzt du dieses Tool?
- Bild auswählen oder per Drag & Drop ablegen (PNG, JPG, WebP, AVIF oder HEIC bis 15 MB)
- Modus wählen: Kurz (Alt-Text, max. 125 Zeichen), Lang oder Detailliert
- Optional Seiten-Kontext eingeben (z. B. „Produktseite Wanderschuhe“), um die Beschreibung zu fokussieren
- Einmaliger Modell-Download im Hintergrund (rund 75 MB), danach gecacht
- Beschreibung kopieren oder als .txt herunterladen
Was macht das Tool?
Das Tool erzeugt aus einem Bild eine natürlichsprachliche Beschreibung — als kurzen Alt-Text, als längere Caption oder als detaillierte Szenen-Schilderung. Die Berechnung läuft vollständig in deinem Browser per WebAssembly und einem spezialisierten neuronalen Netz, das genau für Bild-zu-Text-Aufgaben trainiert wurde. Es gibt drei Modi: „Kurz (Alt-Text)” liefert eine Beschreibung unter 125 Zeichen, die direkt in das alt-Attribut eines <img>-Tags passt; „Lang” produziert eine ausführlichere Caption für Bildunterschriften und Social-Media-Posts; „Detailliert” geht in die Tiefe und beschreibt auch Stimmung und Hintergrundelemente.
Im Lieferumfang ist außerdem ein WCAG-Hint-Layer enthalten, der jedes Ergebnis live gegen die Web-Accessibility-Empfehlungen prüft: Zeichen-Zähler mit Ampel-Anzeige bei Überschreitung des 125-Zeichen-Limits, automatische Erkennung redundanter Phrasen wie „Bild von …” und ein Ein-Klick-Vorschlag zur Bereinigung. Das verhindert die häufigsten Anti-Muster, die Screen-Reader-Nutzer im Web stören.
Wie funktioniert das Tool?
Bilder beschreiben ist ein Problem aus dem Feld Computer Vision — der Computer muss aus Pixelwerten erkennen, was im Bild zu sehen ist, und das in einen grammatikalisch korrekten Satz übersetzen. Klassische Algorithmen scheitern daran: sie erkennen Farben, Kanten und einfache Formen, aber keine Bedeutung. Moderne Vision-Language-Modelle lösen die Aufgabe mit einer zweistufigen Architektur — ein Encoder verwandelt das Bild in eine kompakte Repräsentation, ein Decoder schreibt daraus Text.
Der gesamte Vorgang läuft in deinem Browser. Beim ersten Aufruf wird das Modell einmal aus einem öffentlichen Modell-Speicher geladen (rund 75 MB in der schnellen Variante, rund 90 MB in der genaueren), danach liegt es im Browser-Cache und arbeitet offline. Jede weitere Beschreibung dauert je nach Gerät und Modi 3 bis 15 Sekunden. Im Hintergrund wird das Bild auf eine modell-kompatible Größe normalisiert, durch das Encoder-Netz geleitet und der Decoder erzeugt Token für Token den Beschreibungssatz.
Das Tool unterstützt zwei Varianten: die schnelle läuft auf jedem Gerät inklusive Smartphone und Tablet, die genauere ist für moderne Desktops und neuere Smartphones gedacht und liefert tendenziell präzisere Beschreibungen — besonders bei Produktfotos und Szenen mit mehreren Objekten.
Wann liefert das Tool gute Ergebnisse?
Fotos mit klarem Hauptmotiv sind der Sweet-Spot. Porträts, Tieraufnahmen, Landschaften, Produktfotos mit zentriertem Subjekt, Innenraum-Aufnahmen — überall, wo das Bild eine eindeutige Szene zeigt, liefert das Modell brauchbare Beschreibungen. Auch Stock-Fotos, Blog-Bilder und Social-Media-Posts profitieren.
Schwierig wird es in drei Fällen:
- Marken, Logos, Schrift im Bild — das Modell kann selten konkrete Markennamen erkennen oder OCR durchführen. Für Schrift-im-Bild ist unser separates Bild-zu-Text-Tool die richtige Wahl.
- Sehr abstrakte oder dekorative Bilder — Muster, Gradienten, Icons. Hier produziert das Modell oft zu generische Beschreibungen wie „Ein farbiges Muster”. Für dekorative Bilder reicht im Web ohnehin
alt=""(leerer Alt-Text). - Erwartungen an Personenidentifikation — das Modell beschreibt Aussehen und Pose, gibt aber keine Namen aus. Das ist Absicht: Gesichtserkennung wäre datenschutzrechtlich heikel, das Tool ist auf neutrale Inhaltsbeschreibung beschränkt.
Bei unbefriedigenden Ergebnissen hilft das optionale Kontext-Feld: „Seiten-Kontext: Online-Shop für Wanderausrüstung” fokussiert das Modell auf den passenden Sprach- und Themenraum, und du bekommst stattdessen Beschreibungen wie „Brauner Lederwanderschuh mit roter Sohle” statt „Ein Schuh”.
Warum kommt die Beschreibung auf Englisch?
Die aktuell verfügbaren browser-tauglichen Modelle wurden auf einem englischsprachigen Datensatz trainiert (MS-COCO Captions). Die Beschreibung ist deshalb in v1 immer englisch — auch wenn du auf der deutschen Seite arbeitest. Eine deutsche Version steht auf der Roadmap, sobald ein deutsches Vision-Language-Modell unter der Browser-Größen-Schwelle (≤100 MB) verfügbar ist. Für den jetzt-Workflow lässt sich der englische Output mit jedem Übersetzungs-Tool nachbearbeiten — oder direkt im englischen Schreibstil als Alt-Text in mehrsprachigen Seiten verwenden, da Alt-Texte ohnehin oft englisch geschrieben werden.
Datenschutz — 100 % im Browser
Die Bildanalyse passiert ausschließlich lokal auf deinem Gerät. Weder das Original noch die generierte Beschreibung werden an einen Server gesendet, gespeichert oder analysiert. Es gibt kein Cookie-Banner für Drittanbieter, keine Anmeldung und kein Tracking — auch keine anonymen Nutzungsstatistiken.
Eine Ausnahme ist der einmalige Modell-Download beim ersten Aufruf: Die Modell-Datei wird einmalig von einem öffentlichen Modell-Speicher geladen. Dieser Request enthält ausschließlich die URL der Modell-Datei. Es werden keine Bilddaten und keine Nutzer-IDs übertragen. Technisch bedingt sieht der Modell-Anbieter die IP-Adresse und den User-Agent des Browsers, aus dem der Download stammt — dieselben Daten also, die auch dein Internetanbieter bei jedem Webseitenaufruf sieht. Nach dem ersten Laden liegt das Modell im Browser-Cache, das CDN wird dann nicht mehr kontaktiert.
Für sensible Bilder wie Produktprototypen, vertrauliche Marketingvisuals oder unveröffentlichte Pressefotos ist genau das der entscheidende Vorteil gegenüber Cloud-Diensten, die das Bild zwingend hochladen. Weitere Details stehen in der Datenschutzerklärung.
Was schreibt der EU AI Act für KI-Beschreibungen vor?
Ab August 2026 verlangt der EU AI Act in Artikel 50, dass KI-generierte Inhalte als solche gekennzeichnet werden. Das Tool zeigt deshalb über jeder generierten Beschreibung einen festen, nicht-ausblendbaren Hinweis: „Diese Beschreibung wurde von einem KI-Modell generiert. Bitte vor Verwendung prüfen — KI-Modelle können Bildinhalte fehlinterpretieren oder erfinden.” Dieser Disclaimer ist Pflicht und kann nicht abgeschaltet werden.
Praktisch bedeutet das: die Ausgabe ist ein Vorschlag, kein verbindlicher Fakt. KI-Modelle „halluzinieren” gelegentlich Inhalte, die im Bild nicht vorkommen, oder interpretieren mehrdeutige Szenen falsch. Insbesondere bei Alt-Texten für Barrierefreiheit, juristisch oder medizinisch relevanten Beschreibungen und allem, was offiziell veröffentlicht wird, lohnt sich ein kurzer Sichtcheck vor der Übernahme.
Häufige Fragen
Die häufigsten Rückfragen zur Nutzung, Qualität und zum Datenschutz:
Wie kann ich Alt-Texte für Bilder automatisch generieren?
Lade dein Bild im Tool oben hoch — es wird vollständig im Browser per KI beschrieben. Der „Kurz (Alt-Text)“-Modus liefert eine Beschreibung unter 125 Zeichen, die direkt in alt="…" passt. Kostenlos, ohne Anmeldung, ohne Tracking.
Was ist ein guter Alt-Text laut WCAG?
Ein guter Alt-Text beschreibt Inhalt und Funktion eines Bildes in maximal 125 Zeichen, ohne „Bild von …” oder Datei-Endung. Das Tool warnt dich automatisch, wenn diese Anti-Muster auftauchen, und schlägt eine bereinigte Version vor.
Funktioniert der KI-Beschreiber offline?
Ja. Beim ersten Aufruf lädt der Browser einmalig das KI-Modell herunter (rund 75 MB). Danach laufen alle weiteren Beschreibungen vollständig offline aus dem Browser-Cache.
Welche Bildformate kann ich hochladen?
Eingabe: PNG, JPG, WebP, AVIF und HEIC (iPhone-Fotos). HEIC wird automatisch entpackt, bevor das Modell läuft. Output ist Text — als .txt-Datei oder direkt in die Zwischenablage.
Wie lange dauert eine Beschreibung?
Nach dem einmaligen Modell-Download dauert die Beschreibung typischerweise 3 bis 15 Sekunden — abhängig vom Gerät, der gewählten Variante und dem Detail-Modus. Während der Verarbeitung zeigt eine Fortschrittsanzeige den aktuellen Stand.
Welche Bild-Tools sind verwandt?
Weitere Tools aus dem kittokit-Ökosystem, die zum Thema passen:
- Bild zu Text (OCR) — Schrift aus Bildern auslesen, ebenfalls vollständig im Browser. Nutze dieses Tool, wenn du Text im Bild brauchst (Scans, Screenshots).
- Hintergrund entfernen — KI-basiertes Freistellen, oft die Vorstufe für saubere Produkt-Beschreibungen.
- Bild vergrößern — kleine Vorschau-Bilder auf Print-Auflösung bringen, bevor du Alt-Texte erzeugst.
- EXIF-Viewer — Metadaten aus dem Bild auslesen (Kamera, GPS, Datum) — komplementär zur inhaltlichen Beschreibung.
Zuletzt aktualisiert: