Was bedeutet „Segment Anything" — was macht das Tool?

Segment Anything ist ein KI-Verfahren, das aus einem einzigen Klick die komplette Kontur eines Objekts in einem Foto extrahiert. Du tippst ins Bild — das Tool erzeugt eine pixelgenaue Maske, mit der du das Objekt freistellen oder den Hintergrund austauschen kannst. Das Verfahren funktioniert für beliebige Bildinhalte: Personen, Tiere, Produkte, Objekte, Pflanzen, Möbel.

Funktioniert das Tool offline und ohne Anmeldung?

Ja. Das KI-Modell wird beim ersten Aufruf einmalig in den Browser-Cache geladen (rund 21 MB in der schnellen Variante, rund 106 MB in der genauen). Danach laufen alle weiteren Segmentierungen vollständig offline. Keine Anmeldung, keine E-Mail-Adresse, keine Drittanbieter-Cookies, kein Server-Upload.

Bleibt mein Foto wirklich privat?

Ja. Die Segmentierung läuft ausschließlich auf deinem Gerät über [WebAssembly](https://de.wikipedia.org/wiki/WebAssembly) oder [WebGPU](https://de.wikipedia.org/wiki/WebGPU). Das Foto verlässt deinen Browser-Tab zu keinem Zeitpunkt — weder Original noch berechnete Maske werden an einen Server gesendet. Lediglich das KI-Modell wird einmal von einem öffentlichen Modell-Speicher geladen — dabei werden keine Bilddaten übertragen, nur die Modell-Datei.

Was ist der Unterschied zwischen den Modus-Optionen Klick, Box und Verfeinern?

**Klick** ist der Standard — ein einziger Tip auf das Objekt erzeugt die Auswahl. **Box** ist nützlich, wenn mehrere ähnliche Objekte nebeneinander stehen (z.B. mehrere Stühle) — ein Rechteck präzisiert, welches Objekt gemeint ist. **Verfeinern** ist der Power-Modus: positive Klicks (grün) fügen Bereiche zur Maske hinzu, Shift-Klicks (orange) entfernen Bereiche. Die Maske aktualisiert sich live, in unter 100 ms pro Klick.

Was sind die drei Masken-Vorschläge unter dem Bild?

Das Modell liefert pro Klick drei Kandidaten-Masken mit unterschiedlicher Granularität: der höchste IoU-Score (Konfidenz) ist vorausgewählt. Die alternativen Vorschläge zeigen oft sinnvolle Sub-Auswahlen — bei einem Porträt z.B. „nur Kopf", „Kopf+Schultern" und „ganze Person". Tippe auf einen Vorschlag, um die Maske zu wechseln.

Warum dauert die erste Klick-Auswahl länger als die folgenden?

Das Tool nutzt ein zweistufiges Verfahren: Beim ersten Bild läuft der Bild-Encoder einmalig (rund 2 bis 6 Sekunden, abhängig vom Gerät und Modell). Danach speichert das Tool die Bild-Repräsentation im Speicher, und jeder folgende Klick benötigt nur noch den kleinen Masken-Decoder — typischerweise unter 100 Millisekunden. So fühlt sich die Verfeinerung in Echtzeit an.

Wie verlässlich ist die KI-Segmentierung?

Sehr gut für klar abgegrenzte Objekte in alltäglichen Fotos — Personen, Tiere, Produkte, Möbel, Fahrzeuge. Schwieriger sind transparente Gegenstände (Glas, Schleier), feines Haar/Fell mit Hintergrund-Durchblick und Reflektionen. Wegen der EU-KI-Verordnung Art. 50 zeigt das Tool über jedem Ergebnis einen Hinweis, dass die Auswahl eine Schätzung ist — bei kritischen Anwendungen vor dem Einsatz prüfen.

Was kann ich mit der Maske machen?

Drei typische Workflows: **Freisteller** — das Objekt mit transparentem Hintergrund als PNG für Composings, Produktfotos, Social-Media-Grafiken. **Inverse Maske** — Hintergrund behalten, Objekt entfernen (für Entfern-Workflows). **Reine Maske** — Schwarz-Weiß-PNG für [Photoshop](https://www.adobe.com/products/photoshop.html), [Affinity Photo](https://affinity.serif.com/de/photo/), [GIMP](https://www.gimp.org/) als Auswahl-Maske, [Blender](https://www.blender.org/) als Alpha-Kanal.

Segment Anything — Objekte freistellen per Klick

Was macht das Tool?

Segment Anything stellt aus einem einzigen Foto-Klick die komplette Kontur eines Objekts heraus. Du tippst ins Bild, das Tool berechnet eine pixelgenaue Maske, und du erhältst drei Ausgaben: das freigestellte Objekt als PNG (transparenter Hintergrund), die reine Schwarz-Weiß-Maske (für Bildbearbeitungs-Programme), und die inverse Maske (Hintergrund behalten, Objekt entfernen). Alles passiert direkt in deinem Browser per WebAssembly oder WebGPU — kein Foto wird an einen Server gesendet.

Der Kern des Verfahrens ist ein spezialisiertes neuronales Netz für die promptbasierte Bild-Segmentierung. Du gibst dem Modell einen „Prompt” — einen Klick-Punkt, ein Rechteck oder eine Kombination aus positiven und negativen Punkten — und es liefert die zugehörige Maske. Das funktioniert für beliebige Objekte: Personen, Tiere, Möbel, Produkte, Pflanzen, Fahrzeuge. Es ist nicht auf eine bestimmte Klassen-Liste beschränkt wie ältere Verfahren.

Wie funktioniert die Segmentierung in deinem Browser?

Das Tool arbeitet in zwei Phasen. In der Analyse-Phase läuft ein Bild-Encoder einmal über dein Foto — er extrahiert die räumlichen Bild-Repräsentationen in ein internes Format, das für die folgende Auswahl gebraucht wird. Diese Phase dauert je nach Modell und Gerät rund 2 bis 6 Sekunden und ist einmalig pro Bild.

In der Auswahl-Phase läuft ein kleiner Masken-Decoder bei jedem deiner Klicks. Weil der Encoder seine Arbeit schon getan hat und die Repräsentation im Speicher liegt, ist diese Phase dramatisch schneller — typischerweise unter 100 Millisekunden pro Klick. So fühlt sich die Verfeinerung an wie eine Live-Interaktion: du tippst, die Maske aktualisiert sich, du tippst wieder, die Maske passt sich an.

Diese Zweiteilung ist der zentrale Performance-Trick gegenüber älteren Werkzeugen, die für jeden Klick das gesamte Modell neu durchlaufen — dort dauert jeder Klick mehrere Sekunden, was Verfeinerung praktisch unmöglich macht.

Welche Auswahl-Modi gibt es?

Klick-Modus ist der Standard. Du tippst einmal auf das Zielobjekt, und das Modell erkennt die zugehörige Kontur automatisch. Funktioniert hervorragend für klar abgegrenzte Objekte mit Kontrast zum Hintergrund — Personen vor einer Wand, Produkte auf einem Tisch, Tiere in einer Landschaft.

Box-Modus ist nützlich, wenn mehrere ähnliche Objekte nebeneinander stehen. Du ziehst ein Rechteck um das gewünschte Objekt, und das Modell weiß genau, welches du meinst. Klassisches Beispiel: Fotos von mehreren Personen, wo ein einzelner Klick mehrdeutig wäre.

Verfeinern-Modus ist der Power-Modus. Tippen fügt einen positiven Punkt hinzu (in der Maske enthalten, dargestellt in der Hervorhebungsfarbe), Shift-Tippen fügt einen negativen Punkt hinzu (aus der Maske entfernt, dargestellt in der Fehlerfarbe). Mit zwei oder drei zusätzlichen Punkten lassen sich auch komplexe Auswahlen — etwa „nur das T-Shirt, nicht die Haut” — präzise erzeugen.

Was sind die drei Masken-Vorschläge?

Das Modell liefert pro Prompt nicht eine, sondern drei Masken mit unterschiedlicher Granularität. Die Vorschläge werden nach ihrer geschätzten Konfidenz (Intersection-over-Union, IoU) sortiert — der wahrscheinlichste Vorschlag ist vorausgewählt. Du kannst zwischen den dreien wechseln, ohne neu zu rechnen.

In der Praxis sehen die drei Vorschläge oft so aus: bei einem Porträt-Klick liefert das Modell „Kopf alleine”, „Kopf und Schultern” und „ganze Person”. Bei einem Klick auf ein Auto „nur Karosserie”, „Auto inkl. Fenster” und „Auto inkl. Schatten am Boden”. Diese Mehrfach-Vorschläge sparen den nächsten Verfeinerungs-Klick, wenn die naheliegende Granularität nicht die gewünschte ist.

Wofür kann ich die Maske verwenden?

Die Ausgabe ist universell, das Tool bietet drei Download-Optionen:

Freisteller-PNG — das Objekt mit transparentem Hintergrund. Direkt einsetzbar für Composings in Adobe Photoshop, Produktbilder auf einer Verkaufsplattform, Social-Media-Grafiken mit transparentem Hintergrund, oder als Overlay für Video-Schnitt.
Maske-PNG — Schwarz-Weiß-Bild, weiß = Objekt, schwarz = Hintergrund. Eingabe für eigene Workflows in Affinity Photo, GIMP als „Auswahl aus Maske laden”, oder als Alpha-Kanal in Blender für 3D-Composings.
Inverse Maske / inverser Freisteller — Hintergrund behalten, Objekt entfernen. Praktisch für „Person aus Foto entfernen”-Workflows in Kombination mit einem Content-Aware-Fill in der Bildbearbeitung.

Alle Ausgaben sind verlustfreies PNG in der Original-Auflösung deines Eingabe-Fotos. Es gibt keine versteckten Wasserzeichen, keine Format-Konvertierungen, keine Qualitäts-Verluste.

Wann liefert das Tool besonders gute Ergebnisse?

Klar abgegrenzte Objekte mit gutem Kontrast sind der Sweet Spot. Ein Mensch vor einer einfarbigen Wand, ein Produkt auf einem aufgeräumten Tisch, ein Tier in einer typischen Landschaft — hier reicht oft ein einziger Klick für ein druckreifes Ergebnis.

Auch schwierigere Szenen funktionieren gut, brauchen aber Verfeinerung: bei feinem Haar mit Hintergrund-Durchblick liefert ein Verfeinerungs-Klick auf die Haarspitze meist die fehlende Kontur. Bei einer Person, die ein Objekt vor sich hält (z.B. Smartphone, Glas), trennt ein negativer Klick auf das Objekt sauber ab.

Schwierige Fälle: vollständig transparente Objekte (Glas, Wasser-Tropfen), sehr feines Detail (einzelne Haarspitzen ohne Kontrast), Reflektionen und Spiegelungen, sowie Bilder mit niedriger Auflösung (unter 256×256). In diesen Fällen ist eine manuelle Nachbearbeitung in einem Bildbearbeitungs-Programm sinnvoll — die Tool-Maske ist dann ein guter Startpunkt, kein Endprodukt.

Ist mein Foto wirklich privat?

Die Segmentierung läuft ausschließlich auf deinem Gerät. Weder das Original noch die berechnete Maske werden an einen Server gesendet, gespeichert oder analysiert. Es gibt keinen Drittanbieter-Cookie-Banner, keine Anmeldung und kein Tracking — auch keine anonyme Nutzungs-Analyse.

Die einzige Ausnahme ist der einmalige Modell-Download beim allerersten Aufruf: Die Modell-Datei wird einmal von einem öffentlichen Modell-Speicher geladen. Diese Anfrage enthält nur die Modell-Datei-URL. Es werden keine Bilddaten, keine User-IDs und keine persönlich identifizierbaren Informationen übertragen. Nach dem ersten Laden lebt das Modell im Browser-Cache, der CDN wird nicht mehr kontaktiert.

Für sensibles Material wie Produktprototypen, vertrauliche Visuals oder unveröffentlichte Aufnahmen ist das der entscheidende Vorteil gegenüber Cloud-Tools, die die Datei hochladen müssen — bei kittokit sieht niemand außer dir das Foto.

Was schreibt die EU-KI-Verordnung über KI-generierte Inhalte vor?

Ab August 2026 schreibt der EU AI Act Artikel 50 vor, dass KI-generierte Inhalte als solche gekennzeichnet werden müssen. Das Tool zeigt deshalb über jedem Ergebnis einen fest sichtbaren Hinweis: „Diese Auswahl wurde von einem KI-Modell geschätzt. Bei optischen Täuschungen oder ungewöhnlichen Szenen prüfen.” Dieser Hinweis ist verpflichtend und nicht ausblendbar.

In der Praxis heißt das: Die Maske ist ein Vorschlag, keine bindende Klassifizierung. Für gestalterische Zwecke (Composings, Produktbilder, Social Media) ist die Genauigkeit mehr als ausreichend; für sicherheitskritische Anwendungen (medizinische Bildanalyse, juristische Identifikation, autonome Systeme) ist ein professionelles Tool mit Klassifizierungs-Gewährleistung nötig — und keine browser-lokale KI-Schätzung.

Häufige Fragen

Die wichtigsten Fragen rund um Nutzung, Qualität und Privatsphäre:

Wie stelle ich ein Objekt mit einem Klick frei?

Lade dein Foto im Tool oben hoch — nach rund 3 Sekunden Analyse-Phase tippst du einmal auf das Objekt. Die Maske erscheint sofort. Drei Vorschläge stehen zur Wahl, der wahrscheinlichste ist vorausgewählt. Maske-PNG oder Freisteller-PNG herunterladen.

Funktioniert das Tool offline?

Ja. Beim ersten Aufruf lädt der Browser das KI-Modell einmalig herunter (rund 21 MB schnell, rund 106 MB genau). Danach laufen alle weiteren Segmentierungen offline aus dem Browser-Cache.

Welche Bildformate kann ich hochladen?

Eingabe: PNG, JPG, WebP, AVIF und HEIC (iPhone-Fotos). HEIC wird automatisch dekodiert. Ausgabe: verlustfreies PNG (Maske + Freisteller + inverse Maske) in Originalauflösung.

Wie lange dauert eine Auswahl?

Pro Bild rund 2 bis 6 Sekunden für die einmalige Analyse-Phase, danach unter 100 Millisekunden pro Verfeinerungs-Klick.

Welche Bild-Tools passen dazu?

Weitere Tools aus dem kittokit-Ökosystem, die gut zur Objekt-Segmentierung passen:

Hintergrund entfernen — automatische Freistellung ohne Klick, ideal für Porträts und Produkte mit klarem Hintergrund.
Foto zu Malvorlage — Linienzeichnung statt Maske, für Print-Workflows mit Ausmal-Charakter.
Tiefenkarte erzeugen — räumliche Tiefe statt Objekt-Maske, ergänzt Segmentierung für 3D-Workflows.
Bild vergrößern — Eingabe-Bilder vor der Segmentierung hochskalieren, wenn die Quelle unter 512×512 liegt.
Bild-Format-Konverter — Masken oder Freisteller in andere Formate umwandeln (PNG-Verlustfrei zu WebP-Kompakt).