Zum Inhalt springen
Läuft lokal · kein Upload

Segment Anything — Objekte freistellen per Klick

Klick, Box, oder mehrere Punkte zur Verfeinerung — ein spezialisiertes Segmentierungs-Modell erkennt die Objekt-Kontur und liefert Maske, Freisteller und inverse Maske als verlustfreie PNGs.

Bild auswählen oder hier ablegen

PNG, JPG, WebP, AVIF oder HEIC bis 20 MB

PNGJPGWEBPAVIFHEICHEIF

So funktioniert es

  1. 01

    Foto auswählen

    Ziehe eine Datei per Drag & Drop in den Bereich oder wähle sie vom Gerät. PNG, JPG, WebP, AVIF oder HEIC bis 20 MB.

  2. 02

    Modus wählen und Klick setzen

    Klick für einfache Auswahl, Box für Rechteck-Eingrenzung, Verfeinern für positive und negative Punkte. Maske erscheint in unter einer Sekunde nach der einmaligen Bild-Analyse.

  3. 03

    Maske wählen + Download

    Aus drei Vorschlägen den besten wählen (Konfidenz angezeigt). Maske-PNG, Freisteller-PNG oder inverse Maske herunterladen.

Datenschutz

Die Verarbeitung läuft ausschließlich auf deinem Gerät. Deine Fotos verlassen den Browser nicht, werden nicht auf Server übertragen und nach dem Schließen des Tabs gelöscht. Damit ist das Tool DSGVO-konform — sicher für Produktfotos, geschäftliche Visuals oder vertrauliche Aufnahmen.

Ein Klick auf das gewünschte Objekt reicht — Maske erscheint sekundengenau. Das Modell läuft vollständig im Browser per WebGPU oder WebAssembly. Verfeinere die Auswahl mit zusätzlichen Klicks, lade Maske oder freigestelltes Objekt als PNG herunter — alles passiert auf deinem Gerät, kein Foto verlässt den Browser-Tab.

01 — Anleitung

Wie benutzt du dieses Tool?

  1. Foto auswählen oder per Drag & Drop ablegen (PNG, JPG, WebP, AVIF oder HEIC bis 20 MB)
  2. Modus wählen: Klick (Standard), Box (Rechteck-Eingrenzung) oder Verfeinern (positive/negative Punkte)
  3. Einmal auf das Objekt tippen — Auswahl entsteht in unter einer Sekunde nach der einmaligen Bild-Analyse
  4. Aus drei Masken-Vorschlägen den besten wählen (IoU-Konfidenz sichtbar)
  5. Maske-PNG, Freisteller-PNG oder inverse Maske herunterladen — verlustfrei, in Originalauflösung

Was macht das Tool?

Segment Anything stellt aus einem einzigen Foto-Klick die komplette Kontur eines Objekts heraus. Du tippst ins Bild, das Tool berechnet eine pixelgenaue Maske, und du erhältst drei Ausgaben: das freigestellte Objekt als PNG (transparenter Hintergrund), die reine Schwarz-Weiß-Maske (für Bildbearbeitungs-Programme), und die inverse Maske (Hintergrund behalten, Objekt entfernen). Alles passiert direkt in deinem Browser per WebAssembly oder WebGPU — kein Foto wird an einen Server gesendet.

Der Kern des Verfahrens ist ein spezialisiertes neuronales Netz für die promptbasierte Bild-Segmentierung. Du gibst dem Modell einen „Prompt” — einen Klick-Punkt, ein Rechteck oder eine Kombination aus positiven und negativen Punkten — und es liefert die zugehörige Maske. Das funktioniert für beliebige Objekte: Personen, Tiere, Möbel, Produkte, Pflanzen, Fahrzeuge. Es ist nicht auf eine bestimmte Klassen-Liste beschränkt wie ältere Verfahren.

Wie funktioniert die Segmentierung in deinem Browser?

Das Tool arbeitet in zwei Phasen. In der Analyse-Phase läuft ein Bild-Encoder einmal über dein Foto — er extrahiert die räumlichen Bild-Repräsentationen in ein internes Format, das für die folgende Auswahl gebraucht wird. Diese Phase dauert je nach Modell und Gerät rund 2 bis 6 Sekunden und ist einmalig pro Bild.

In der Auswahl-Phase läuft ein kleiner Masken-Decoder bei jedem deiner Klicks. Weil der Encoder seine Arbeit schon getan hat und die Repräsentation im Speicher liegt, ist diese Phase dramatisch schneller — typischerweise unter 100 Millisekunden pro Klick. So fühlt sich die Verfeinerung an wie eine Live-Interaktion: du tippst, die Maske aktualisiert sich, du tippst wieder, die Maske passt sich an.

Diese Zweiteilung ist der zentrale Performance-Trick gegenüber älteren Werkzeugen, die für jeden Klick das gesamte Modell neu durchlaufen — dort dauert jeder Klick mehrere Sekunden, was Verfeinerung praktisch unmöglich macht.

Welche Auswahl-Modi gibt es?

Klick-Modus ist der Standard. Du tippst einmal auf das Zielobjekt, und das Modell erkennt die zugehörige Kontur automatisch. Funktioniert hervorragend für klar abgegrenzte Objekte mit Kontrast zum Hintergrund — Personen vor einer Wand, Produkte auf einem Tisch, Tiere in einer Landschaft.

Box-Modus ist nützlich, wenn mehrere ähnliche Objekte nebeneinander stehen. Du ziehst ein Rechteck um das gewünschte Objekt, und das Modell weiß genau, welches du meinst. Klassisches Beispiel: Fotos von mehreren Personen, wo ein einzelner Klick mehrdeutig wäre.

Verfeinern-Modus ist der Power-Modus. Tippen fügt einen positiven Punkt hinzu (in der Maske enthalten, dargestellt in der Hervorhebungsfarbe), Shift-Tippen fügt einen negativen Punkt hinzu (aus der Maske entfernt, dargestellt in der Fehlerfarbe). Mit zwei oder drei zusätzlichen Punkten lassen sich auch komplexe Auswahlen — etwa „nur das T-Shirt, nicht die Haut” — präzise erzeugen.

Was sind die drei Masken-Vorschläge?

Das Modell liefert pro Prompt nicht eine, sondern drei Masken mit unterschiedlicher Granularität. Die Vorschläge werden nach ihrer geschätzten Konfidenz (Intersection-over-Union, IoU) sortiert — der wahrscheinlichste Vorschlag ist vorausgewählt. Du kannst zwischen den dreien wechseln, ohne neu zu rechnen.

In der Praxis sehen die drei Vorschläge oft so aus: bei einem Porträt-Klick liefert das Modell „Kopf alleine”, „Kopf und Schultern” und „ganze Person”. Bei einem Klick auf ein Auto „nur Karosserie”, „Auto inkl. Fenster” und „Auto inkl. Schatten am Boden”. Diese Mehrfach-Vorschläge sparen den nächsten Verfeinerungs-Klick, wenn die naheliegende Granularität nicht die gewünschte ist.

Wofür kann ich die Maske verwenden?

Die Ausgabe ist universell, das Tool bietet drei Download-Optionen:

  • Freisteller-PNG — das Objekt mit transparentem Hintergrund. Direkt einsetzbar für Composings in Adobe Photoshop, Produktbilder auf einer Verkaufsplattform, Social-Media-Grafiken mit transparentem Hintergrund, oder als Overlay für Video-Schnitt.
  • Maske-PNG — Schwarz-Weiß-Bild, weiß = Objekt, schwarz = Hintergrund. Eingabe für eigene Workflows in Affinity Photo, GIMP als „Auswahl aus Maske laden”, oder als Alpha-Kanal in Blender für 3D-Composings.
  • Inverse Maske / inverser Freisteller — Hintergrund behalten, Objekt entfernen. Praktisch für „Person aus Foto entfernen”-Workflows in Kombination mit einem Content-Aware-Fill in der Bildbearbeitung.

Alle Ausgaben sind verlustfreies PNG in der Original-Auflösung deines Eingabe-Fotos. Es gibt keine versteckten Wasserzeichen, keine Format-Konvertierungen, keine Qualitäts-Verluste.

Wann liefert das Tool besonders gute Ergebnisse?

Klar abgegrenzte Objekte mit gutem Kontrast sind der Sweet Spot. Ein Mensch vor einer einfarbigen Wand, ein Produkt auf einem aufgeräumten Tisch, ein Tier in einer typischen Landschaft — hier reicht oft ein einziger Klick für ein druckreifes Ergebnis.

Auch schwierigere Szenen funktionieren gut, brauchen aber Verfeinerung: bei feinem Haar mit Hintergrund-Durchblick liefert ein Verfeinerungs-Klick auf die Haarspitze meist die fehlende Kontur. Bei einer Person, die ein Objekt vor sich hält (z.B. Smartphone, Glas), trennt ein negativer Klick auf das Objekt sauber ab.

Schwierige Fälle: vollständig transparente Objekte (Glas, Wasser-Tropfen), sehr feines Detail (einzelne Haarspitzen ohne Kontrast), Reflektionen und Spiegelungen, sowie Bilder mit niedriger Auflösung (unter 256×256). In diesen Fällen ist eine manuelle Nachbearbeitung in einem Bildbearbeitungs-Programm sinnvoll — die Tool-Maske ist dann ein guter Startpunkt, kein Endprodukt.

Ist mein Foto wirklich privat?

Die Segmentierung läuft ausschließlich auf deinem Gerät. Weder das Original noch die berechnete Maske werden an einen Server gesendet, gespeichert oder analysiert. Es gibt keinen Drittanbieter-Cookie-Banner, keine Anmeldung und kein Tracking — auch keine anonyme Nutzungs-Analyse.

Die einzige Ausnahme ist der einmalige Modell-Download beim allerersten Aufruf: Die Modell-Datei wird einmal von einem öffentlichen Modell-Speicher geladen. Diese Anfrage enthält nur die Modell-Datei-URL. Es werden keine Bilddaten, keine User-IDs und keine persönlich identifizierbaren Informationen übertragen. Nach dem ersten Laden lebt das Modell im Browser-Cache, der CDN wird nicht mehr kontaktiert.

Für sensibles Material wie Produktprototypen, vertrauliche Visuals oder unveröffentlichte Aufnahmen ist das der entscheidende Vorteil gegenüber Cloud-Tools, die die Datei hochladen müssen — bei kittokit sieht niemand außer dir das Foto.

Was schreibt die EU-KI-Verordnung über KI-generierte Inhalte vor?

Ab August 2026 schreibt der EU AI Act Artikel 50 vor, dass KI-generierte Inhalte als solche gekennzeichnet werden müssen. Das Tool zeigt deshalb über jedem Ergebnis einen fest sichtbaren Hinweis: „Diese Auswahl wurde von einem KI-Modell geschätzt. Bei optischen Täuschungen oder ungewöhnlichen Szenen prüfen.” Dieser Hinweis ist verpflichtend und nicht ausblendbar.

In der Praxis heißt das: Die Maske ist ein Vorschlag, keine bindende Klassifizierung. Für gestalterische Zwecke (Composings, Produktbilder, Social Media) ist die Genauigkeit mehr als ausreichend; für sicherheitskritische Anwendungen (medizinische Bildanalyse, juristische Identifikation, autonome Systeme) ist ein professionelles Tool mit Klassifizierungs-Gewährleistung nötig — und keine browser-lokale KI-Schätzung.

Häufige Fragen

Die wichtigsten Fragen rund um Nutzung, Qualität und Privatsphäre:

Wie stelle ich ein Objekt mit einem Klick frei?

Lade dein Foto im Tool oben hoch — nach rund 3 Sekunden Analyse-Phase tippst du einmal auf das Objekt. Die Maske erscheint sofort. Drei Vorschläge stehen zur Wahl, der wahrscheinlichste ist vorausgewählt. Maske-PNG oder Freisteller-PNG herunterladen.

Funktioniert das Tool offline?

Ja. Beim ersten Aufruf lädt der Browser das KI-Modell einmalig herunter (rund 21 MB schnell, rund 106 MB genau). Danach laufen alle weiteren Segmentierungen offline aus dem Browser-Cache.

Welche Bildformate kann ich hochladen?

Eingabe: PNG, JPG, WebP, AVIF und HEIC (iPhone-Fotos). HEIC wird automatisch dekodiert. Ausgabe: verlustfreies PNG (Maske + Freisteller + inverse Maske) in Originalauflösung.

Wie lange dauert eine Auswahl?

Pro Bild rund 2 bis 6 Sekunden für die einmalige Analyse-Phase, danach unter 100 Millisekunden pro Verfeinerungs-Klick.

Welche Bild-Tools passen dazu?

Weitere Tools aus dem kittokit-Ökosystem, die gut zur Objekt-Segmentierung passen:

  • Hintergrund entfernen — automatische Freistellung ohne Klick, ideal für Porträts und Produkte mit klarem Hintergrund.
  • Foto zu Malvorlage — Linienzeichnung statt Maske, für Print-Workflows mit Ausmal-Charakter.
  • Tiefenkarte erzeugen — räumliche Tiefe statt Objekt-Maske, ergänzt Segmentierung für 3D-Workflows.
  • Bild vergrößern — Eingabe-Bilder vor der Segmentierung hochskalieren, wenn die Quelle unter 512×512 liegt.
  • Bild-Format-Konverter — Masken oder Freisteller in andere Formate umwandeln (PNG-Verlustfrei zu WebP-Kompakt).

Zuletzt aktualisiert:

Das könnte dir auch gefallen