Wie benutzt du dieses Tool?
- Video per Drag-and-Drop ablegen oder per Klick auswählen (bis 500 MB, MP4, WebM, MOV oder MKV)
- Abtast-Rate wählen — 1 fps spart Zeit, 10 fps liefert feinere Bewegungsdaten
- Konfidenz-Schwelle einstellen (Standard 0,5) und Klassen-Filter setzen
- Analyse starten — Erkennungen erscheinen Frame-für-Frame während der Verarbeitung
- JSON, CSV, SVG oder Heatmap-PNG herunterladen
Was macht die Video-Objekterkennung?
Die Video-Objekterkennung tastet dein Video in regelmäßigen Abständen ab und schickt jedes abgetastete Frame durch ein spezialisiertes neuronales Netz für Objekterkennung. Für jedes erkannte Objekt bekommst du die Klasse (etwa Person, Hund oder Auto), die Konfidenz zwischen 0 und 1, und die Pixel-Position als Bounding-Box (xyxy: linker, oberer, rechter, unterer Rand). Das Ergebnis sind keine geschnittenen Videoclips, sondern strukturierte Daten — direkt nutzbar für Statistiken, Auswertungen, Visualisierungen oder Eingaben in nachgelagerte Workflows.
Das Tool arbeitet komplett im Browser-Tab über WebAssembly oder WebGPU. Keine Video-Daten werden an einen Server gesendet. Lediglich das KI-Modell wird beim ersten Aufruf einmal in den Browser-Cache geladen — danach laufen alle weiteren Videos vollständig offline.
Welche Objekt-Klassen werden erkannt?
Insgesamt 80 alltägliche Klassen. Sie decken die Kategorien ab, die in normalem Bildmaterial am häufigsten vorkommen:
- Lebewesen: Person, Vogel, Katze, Hund, Pferd, Schaf, Kuh, Elefant, Bär, Zebra, Giraffe.
- Fahrzeuge: Auto, Fahrrad, Motorrad, Bus, Zug, Lastwagen, Boot, Flugzeug.
- Verkehr und Stadtmöblierung: Ampel, Hydrant, Stoppschild, Parkuhr, Bank.
- Sport und Freizeit: Frisbee, Skier, Snowboard, Sportball, Drachen, Baseballschläger, Baseballhandschuh, Skateboard, Surfbrett, Tennisschläger.
- Tasche, Kleidung, Accessoires: Rucksack, Regenschirm, Handtasche, Krawatte, Koffer.
- Küche: Flasche, Weinglas, Tasse, Gabel, Messer, Löffel, Schüssel, Mikrowelle, Ofen, Toaster, Spüle, Kühlschrank.
- Lebensmittel: Banane, Apfel, Sandwich, Orange, Brokkoli, Karotte, Hotdog, Pizza, Donut, Kuchen.
- Möbel: Stuhl, Sofa, Topfpflanze, Bett, Esstisch, Toilette.
- Elektronik: Fernseher, Laptop, Maus, Fernbedienung, Tastatur, Handy.
- Sonstiges Indoor: Buch, Uhr, Vase, Schere, Teddybär, Haartrockner, Zahnbürste.
Vor der Analyse kannst du die Liste per Klick auf die Klassen-Pills filtern. Standardmäßig sind alle 80 Klassen aktiv — wenn du nur Personen und Hunde brauchst, klickst du auf „Alle entfernen” und aktivierst die zwei gewünschten. Das verkürzt die Trefferliste und macht die exportierten Daten direkter brauchbar.
Wie funktioniert die Bildanalyse Frame-für-Frame?
Das Tool dekodiert dein Video mit den nativen WebCodecs-APIs deines Browsers. Auf einer realen Zeitachse springt der Decoder zu den gewählten Sample-Zeitpunkten — bei 1 fps also einmal pro Sekunde, bei 10 fps zehnmal. Jedes so extrahierte Frame wird in ein internes Bild-Format konvertiert und an das geladene KI-Modell übergeben.
Das Modell betreibt klassische Bounding-Box-Detection: Es teilt das Frame intern in viele Regionen ein, schätzt für jede Region eine Klassen-Wahrscheinlichkeit und gibt die Regionen zurück, deren beste Klasse über deiner gesetzten Schwelle liegt. Diese Boxen sind in Pixel-Koordinaten der originalen Video-Auflösung — sie passen 1:1 auf deine Video-Datei und brauchen kein Rückrechnen von normierten Werten.
Während der Verarbeitung siehst du im Browser einen Fortschrittsbalken plus eine laufende Frame-Liste. Auf der genauen Variante kann ein einzelnes Frame bei großen Videos eine Sekunde brauchen; auf der schnellen Variante eher 300 bis 500 Millisekunden. Bei jedem Status-Wechsel kannst du die Analyse mit „Abbrechen” stoppen — die Daten der bereits verarbeiteten Frames bleiben erhalten.
Was bringt der Klassen-Filter vor der Analyse?
Den Klassen-Filter setzt du vor dem Start, nicht nachträglich. Das hat zwei Vorteile:
Erstens wird das Modell trotzdem für alle 80 Klassen ausgewertet, aber nur die für dich relevanten landen im Ergebnis-Stream. Das reduziert die Datenmenge im Export und macht die JSON-/CSV-Datei direkt aussagekräftig — du musst sie nicht erst in einer Tabellenkalkulation filtern.
Zweitens vereinfacht es die Heatmap. Wenn du dich nur für Personen interessierst, willst du keine Heatmap, in der Stühle und Tische die Hot-Spots dominieren. Mit aktivem Filter zeigt die Heatmap nur die Positionen der gewählten Klassen — perfekt für Bewegungs-Analysen oder Crowd-Heatmaps.
Klassische Anwendungsfälle: nur „person” für Crowd-Tracking; „person, dog” für Hunde-Spaziergangs-Routen; „car, truck, bus, motorcycle” für Verkehrsfluss; „bird, sports_ball” für Tier- oder Sport-Aufnahmen.
Welche Exporte gibt es?
Vier Export-Formate, jeweils ein Klick zum Download:
- JSON — eine strukturierte Datei mit Frame-Liste, Zeitstempel, Klasse, Konfidenz und Box. Direkt einlesbar in Python (pandas.read_json), JavaScript (JSON.parse) oder beliebigen Analytics-Pipelines. Das ist der primäre Export für eigene Auswertungen.
- CSV — eine flache Zeile pro Erkennung, mit Header in dieser festen Reihenfolge:
frame_index,timestamp_s,class_id,label,score,x1,y1,x2,y2. Ideal für Pivot-Tabellen in Microsoft Excel, LibreOffice Calc oder Google Sheets. - SVG — eine vektorbasierte Datei mit einem
<g>-Block pro Keyframe; jedes Block zeigt die Boxen mit Klassen-Label und Konfidenz-Prozent. Direkt einsetzbar für Berichte, weil die Boxen lokal druckbar und nicht pixelig sind. - Heatmap-PNG — eine Pixel-Karte in der Originalauflösung des Videos, in der die Box-Mittelpunkte aller (oder gefilterter) Erkennungen als Dichte-Plot aufgetragen sind. Helle Bereiche bedeuten viele Erkennungen, dunkle bedeuten kaum welche. Praktisch für Sportszenen, Verkehrsanalysen oder die Wahl des perfekten Crops in Video-Editing-Workflows.
Was bedeutet die Konfidenz und wie wähle ich die richtige Schwelle?
Jede Detection trägt einen Konfidenz-Score zwischen 0 und 1. Bei 0,5 ist das Modell ungefähr „ausreichend sicher”, bei 0,9 sehr sicher. Die Schwelle, die du vor dem Lauf setzt, filtert alles unterhalb hart weg — diese Erkennungen tauchen weder im Stream noch im Export auf.
Empfehlung: Beginne mit der Standard-Schwelle 0,5. Wenn du im Ergebnis viele Fehlerkennungen siehst (Möbel als Personen, oder Schatten als Tiere), erhöhe auf 0,7. Wenn du im Gegenteil sicher bist, dass Objekte da sind, sie aber nicht erscheinen, senke auf 0,4 oder 0,35.
Wichtig: Die Konfidenz ist keine Wahrscheinlichkeit im strengen statistischen Sinn, sondern ein Modell-eigener Score. Bei kritischen Anwendungen — etwa Sicherheitstechnik oder rechtliche Auswertungen — solltest du die Ergebnisse stichprobenhaft manuell prüfen.
Wie schnell läuft das Tool auf meinem Gerät?
Drei Faktoren bestimmen die Laufzeit: Video-Länge, Abtast-Rate und Modell-Variante.
- 5 Minuten Video, 1 fps, schnelle Variante: auf einem aktuellen Laptop rund 100 Sekunden — die meisten Anwender wählen diese Kombination als Startpunkt.
- 5 Minuten Video, 1 fps, genaue Variante: rund 5 Minuten. Lohnt sich, wenn die schnelle Variante in deinem Material zu viele Fehler macht.
- 5 Minuten Video, 10 fps, schnelle Variante: rund 15 Minuten. Sinnvoll für Bewegungs-Analysen oder Sport-Mitschnitte, bei denen jede Sekunde wichtig ist.
- Smartphone-Browser: rund dreimal langsamer als ein Laptop. Bei größeren Videos lieber am Desktop arbeiten.
Die Schätzungen erscheinen nach dem Laden des Modells in der Status-Zeile. Wenn der Vorgang zu lange dauert, kannst du jederzeit „Abbrechen” klicken — die Daten der bereits verarbeiteten Frames bleiben in der Ergebnis-Liste erhalten und können exportiert werden.
Wie sicher ist meine Privatsphäre?
Die gesamte Verarbeitung läuft auf deinem Gerät. Es gibt keinen Upload, keine Server-Komponente, keine Cloud-Inferenz. Das ist ein zentraler Unterschied zu vielen kommerziellen Anbietern, bei denen das Video auf einen US-Server hochgeladen, dort analysiert und das Ergebnis zurückgeschickt wird. Selbst wenn dort kein Tracking stattfindet, ist die Datenhoheit nicht in deiner Hand.
Hier bleibt das Video im Browser-Tab. Beim Schließen des Tabs wird der Arbeitsspeicher freigegeben und das Video ist weg. Die einzige Netzwerk-Verbindung, die das Tool aufbaut, ist der einmalige Download der Modell-Datei beim ersten Aufruf — danach läuft das Tool offline.
Das ist DSGVO-konform und kompatibel mit allen Datenschutz-Vorgaben, die du in vertraulichen oder rechtlich heiklen Szenarien einhalten musst — Sport-Aufnahmen mit Kindern, geschäftliche Videos mit Personen, medizinische oder Sicherheits-Material.
Mögliche Anwendungsfälle
- Sport-Analyse: Anzahl der Spieler im Bild über Zeit, Heatmap der Spielerpositionen, Anzahl der Ball-Sichtungen.
- Verkehrsfluss: Anzahl der Fahrzeuge pro Sekunde, Heatmap der Verkehrsknoten.
- Crowd-Counting: Anzahl der Personen im Bild pro Frame als CSV-Zeitreihe.
- Video-Editing: Heatmap als Cropping-Vorlage, um den perfekten 9:16-Ausschnitt für Social Media zu finden.
- Forschung: Tier-Beobachtungen mit Zeitstempeln statt manueller Annotation.
- Inhalts-Check: Liste aller Klassen, die in einem Video vorkommen, vor der Veröffentlichung.
Häufige Fragen
Zuletzt aktualisiert: