Was macht die Video-Objekterkennung genau?

Das Tool tastet dein Video in regelmäßigen Abständen ab (1 bis 10 Frames pro Sekunde), schickt jedes abgetastete Frame durch ein KI-Modell und gibt für jedes erkannte Objekt die Klasse (z.B. Person, Hund, Auto), die Konfidenz (0 bis 1) und die Pixel-Box (xyxy) zurück. Du bekommst keine geschnittene Videodatei, sondern strukturierte Daten zur weiteren Auswertung.

Welche Objekt-Klassen erkennt das Tool?

Insgesamt 80 Alltagsklassen — Personen, Tiere (Hund, Katze, Vogel, Pferd, …), Fahrzeuge (Auto, Fahrrad, Motorrad, Bus, …), Möbel, Sport-Equipment, Küchen-Utensilien, Elektronik. Du kannst die Klassen vor der Analyse filtern, damit nur die für dich relevanten gezählt und gezeichnet werden.

Werden meine Videos hochgeladen?

Nein. Die Analyse läuft vollständig in deinem Browser. Weder das Video noch die berechneten Boxen oder Klassen verlassen dein Gerät. Lediglich das KI-Modell wird beim ersten Aufruf einmalig von einem Modell-Speicher geladen (etwa 9 MB für die schnelle Variante, etwa 43 MB für die genaue) — dabei werden keine Video-Daten übertragen, nur die Modell-Datei.

Wie unterscheiden sich die Modell-Varianten?

Die schnelle Variante (etwa 9 MB) priorisiert First-Inference-Tempo und passt auch auf Mobilgeräte mit knappem Speicher. Die genaue Variante (etwa 43 MB) liefert deutlich präzisere Boxen und höhere Konfidenz, braucht aber rund dreimal so lange pro Frame. Empfehlung: Erst mit der schnellen Variante prüfen, ob die Klassen-Erkennung im Material funktioniert, dann mit der genauen Variante den finalen Lauf machen.

Was bedeutet die Konfidenz-Schwelle?

Jede Erkennung trägt einen Wert zwischen 0 und 1 — wie sicher das Modell ist. 0,5 ist eine bewährte Standard-Schwelle. Niedriger (z.B. 0,3) findet mehr Objekte, hat aber mehr Fehl-Erkennungen. Höher (z.B. 0,8) zeigt nur sehr sichere Erkennungen, übersieht aber kleine oder teilweise verdeckte Objekte. Für Statistiken eignet sich 0,5 bis 0,6, für visuelle Kontrolle 0,7 bis 0,85.

Wie lange dauert die Analyse?

Hauptfaktoren sind Video-Länge, Abtast-Rate und Modell-Variante. Beispiel: 5-Minuten-Video bei 1 fps Abtastung mit der schnellen Variante — etwa 100 Sekunden auf einem Mittelklasse-Laptop. Dieselbe Datei mit der genauen Variante: rund 5 Minuten. Bei 10 fps multipliziert sich die Zeit entsprechend. Die Schätzung erscheint nach dem Laden des Modells in der Status-Zeile.

Was bringt die Heatmap?

Die Heatmap-PNG aggregiert die Mittelpunkte aller Erkennungen über die gesamte Video-Länge auf einer Pixel-Karte in Originalauflösung. So siehst du auf einen Blick, wo sich Bewegungen im Bild konzentrieren — wertvoll für Sportanalysen, Verkehrsfluss-Auswertungen oder die Auswahl der Bildbeschnitte für Cropping-Workflows. Helle Bereiche bedeuten viele Erkennungen, dunkle Bereiche kaum welche.

Wofür sind die JSON-, CSV- und SVG-Exporte gut?

Die **JSON-Datei** enthält pro Frame die kompletten Detection-Listen mit Zeitstempel, Klasse, Konfidenz und xyxy-Box — direkt verwendbar in Python, JavaScript oder einem Tabellenkalkulationsprogramm. Die **CSV-Datei** flacht das gleiche an einer Zeile pro Erkennung ab — ideal für Pivot-Tabellen oder Auswertung in [Excel](https://www.microsoft.com/de-de/microsoft-365/excel) oder [Google Sheets](https://www.google.com/sheets/about/). Das **SVG-Bündel** zeigt die Boxen direkt über jedem Keyframe — gut für Berichte und visuelle Stichproben.

Video-Objekterkennung — KI-Boxen offline im Browser

Was macht die Video-Objekterkennung?

Die Video-Objekterkennung tastet dein Video in regelmäßigen Abständen ab und schickt jedes abgetastete Frame durch ein spezialisiertes neuronales Netz für Objekterkennung. Für jedes erkannte Objekt bekommst du die Klasse (etwa Person, Hund oder Auto), die Konfidenz zwischen 0 und 1, und die Pixel-Position als Bounding-Box (xyxy: linker, oberer, rechter, unterer Rand). Das Ergebnis sind keine geschnittenen Videoclips, sondern strukturierte Daten — direkt nutzbar für Statistiken, Auswertungen, Visualisierungen oder Eingaben in nachgelagerte Workflows.

Das Tool arbeitet komplett im Browser-Tab über WebAssembly oder WebGPU. Keine Video-Daten werden an einen Server gesendet. Lediglich das KI-Modell wird beim ersten Aufruf einmal in den Browser-Cache geladen — danach laufen alle weiteren Videos vollständig offline.

Welche Objekt-Klassen werden erkannt?

Insgesamt 80 alltägliche Klassen. Sie decken die Kategorien ab, die in normalem Bildmaterial am häufigsten vorkommen:

Lebewesen: Person, Vogel, Katze, Hund, Pferd, Schaf, Kuh, Elefant, Bär, Zebra, Giraffe.
Fahrzeuge: Auto, Fahrrad, Motorrad, Bus, Zug, Lastwagen, Boot, Flugzeug.
Verkehr und Stadtmöblierung: Ampel, Hydrant, Stoppschild, Parkuhr, Bank.
Sport und Freizeit: Frisbee, Skier, Snowboard, Sportball, Drachen, Baseballschläger, Baseballhandschuh, Skateboard, Surfbrett, Tennisschläger.
Tasche, Kleidung, Accessoires: Rucksack, Regenschirm, Handtasche, Krawatte, Koffer.
Küche: Flasche, Weinglas, Tasse, Gabel, Messer, Löffel, Schüssel, Mikrowelle, Ofen, Toaster, Spüle, Kühlschrank.
Lebensmittel: Banane, Apfel, Sandwich, Orange, Brokkoli, Karotte, Hotdog, Pizza, Donut, Kuchen.
Möbel: Stuhl, Sofa, Topfpflanze, Bett, Esstisch, Toilette.
Elektronik: Fernseher, Laptop, Maus, Fernbedienung, Tastatur, Handy.
Sonstiges Indoor: Buch, Uhr, Vase, Schere, Teddybär, Haartrockner, Zahnbürste.

Vor der Analyse kannst du die Liste per Klick auf die Klassen-Pills filtern. Standardmäßig sind alle 80 Klassen aktiv — wenn du nur Personen und Hunde brauchst, klickst du auf „Alle entfernen” und aktivierst die zwei gewünschten. Das verkürzt die Trefferliste und macht die exportierten Daten direkter brauchbar.

Wie funktioniert die Bildanalyse Frame-für-Frame?

Das Tool dekodiert dein Video mit den nativen WebCodecs-APIs deines Browsers. Auf einer realen Zeitachse springt der Decoder zu den gewählten Sample-Zeitpunkten — bei 1 fps also einmal pro Sekunde, bei 10 fps zehnmal. Jedes so extrahierte Frame wird in ein internes Bild-Format konvertiert und an das geladene KI-Modell übergeben.

Das Modell betreibt klassische Bounding-Box-Detection: Es teilt das Frame intern in viele Regionen ein, schätzt für jede Region eine Klassen-Wahrscheinlichkeit und gibt die Regionen zurück, deren beste Klasse über deiner gesetzten Schwelle liegt. Diese Boxen sind in Pixel-Koordinaten der originalen Video-Auflösung — sie passen 1:1 auf deine Video-Datei und brauchen kein Rückrechnen von normierten Werten.

Während der Verarbeitung siehst du im Browser einen Fortschrittsbalken plus eine laufende Frame-Liste. Auf der genauen Variante kann ein einzelnes Frame bei großen Videos eine Sekunde brauchen; auf der schnellen Variante eher 300 bis 500 Millisekunden. Bei jedem Status-Wechsel kannst du die Analyse mit „Abbrechen” stoppen — die Daten der bereits verarbeiteten Frames bleiben erhalten.

Was bringt der Klassen-Filter vor der Analyse?

Den Klassen-Filter setzt du vor dem Start, nicht nachträglich. Das hat zwei Vorteile:

Erstens wird das Modell trotzdem für alle 80 Klassen ausgewertet, aber nur die für dich relevanten landen im Ergebnis-Stream. Das reduziert die Datenmenge im Export und macht die JSON-/CSV-Datei direkt aussagekräftig — du musst sie nicht erst in einer Tabellenkalkulation filtern.

Zweitens vereinfacht es die Heatmap. Wenn du dich nur für Personen interessierst, willst du keine Heatmap, in der Stühle und Tische die Hot-Spots dominieren. Mit aktivem Filter zeigt die Heatmap nur die Positionen der gewählten Klassen — perfekt für Bewegungs-Analysen oder Crowd-Heatmaps.

Klassische Anwendungsfälle: nur „person” für Crowd-Tracking; „person, dog” für Hunde-Spaziergangs-Routen; „car, truck, bus, motorcycle” für Verkehrsfluss; „bird, sports_ball” für Tier- oder Sport-Aufnahmen.

Welche Exporte gibt es?

Vier Export-Formate, jeweils ein Klick zum Download:

JSON — eine strukturierte Datei mit Frame-Liste, Zeitstempel, Klasse, Konfidenz und Box. Direkt einlesbar in Python (pandas.read_json), JavaScript (JSON.parse) oder beliebigen Analytics-Pipelines. Das ist der primäre Export für eigene Auswertungen.
CSV — eine flache Zeile pro Erkennung, mit Header in dieser festen Reihenfolge: frame_index, timestamp_s, class_id, label, score, x1, y1, x2, y2. Ideal für Pivot-Tabellen in Microsoft Excel, LibreOffice Calc oder Google Sheets.
SVG — eine vektorbasierte Datei mit einem <g>-Block pro Keyframe; jedes Block zeigt die Boxen mit Klassen-Label und Konfidenz-Prozent. Direkt einsetzbar für Berichte, weil die Boxen lokal druckbar und nicht pixelig sind.
Heatmap-PNG — eine Pixel-Karte in der Originalauflösung des Videos, in der die Box-Mittelpunkte aller (oder gefilterter) Erkennungen als Dichte-Plot aufgetragen sind. Helle Bereiche bedeuten viele Erkennungen, dunkle bedeuten kaum welche. Praktisch für Sportszenen, Verkehrsanalysen oder die Wahl des perfekten Crops in Video-Editing-Workflows.

Was bedeutet die Konfidenz und wie wähle ich die richtige Schwelle?

Jede Detection trägt einen Konfidenz-Score zwischen 0 und 1. Bei 0,5 ist das Modell ungefähr „ausreichend sicher”, bei 0,9 sehr sicher. Die Schwelle, die du vor dem Lauf setzt, filtert alles unterhalb hart weg — diese Erkennungen tauchen weder im Stream noch im Export auf.

Empfehlung: Beginne mit der Standard-Schwelle 0,5. Wenn du im Ergebnis viele Fehlerkennungen siehst (Möbel als Personen, oder Schatten als Tiere), erhöhe auf 0,7. Wenn du im Gegenteil sicher bist, dass Objekte da sind, sie aber nicht erscheinen, senke auf 0,4 oder 0,35.

Wichtig: Die Konfidenz ist keine Wahrscheinlichkeit im strengen statistischen Sinn, sondern ein Modell-eigener Score. Bei kritischen Anwendungen — etwa Sicherheitstechnik oder rechtliche Auswertungen — solltest du die Ergebnisse stichprobenhaft manuell prüfen.

Wie schnell läuft das Tool auf meinem Gerät?

Drei Faktoren bestimmen die Laufzeit: Video-Länge, Abtast-Rate und Modell-Variante.

5 Minuten Video, 1 fps, schnelle Variante: auf einem aktuellen Laptop rund 100 Sekunden — die meisten Anwender wählen diese Kombination als Startpunkt.
5 Minuten Video, 1 fps, genaue Variante: rund 5 Minuten. Lohnt sich, wenn die schnelle Variante in deinem Material zu viele Fehler macht.
5 Minuten Video, 10 fps, schnelle Variante: rund 15 Minuten. Sinnvoll für Bewegungs-Analysen oder Sport-Mitschnitte, bei denen jede Sekunde wichtig ist.
Smartphone-Browser: rund dreimal langsamer als ein Laptop. Bei größeren Videos lieber am Desktop arbeiten.

Die Schätzungen erscheinen nach dem Laden des Modells in der Status-Zeile. Wenn der Vorgang zu lange dauert, kannst du jederzeit „Abbrechen” klicken — die Daten der bereits verarbeiteten Frames bleiben in der Ergebnis-Liste erhalten und können exportiert werden.

Wie sicher ist meine Privatsphäre?

Die gesamte Verarbeitung läuft auf deinem Gerät. Es gibt keinen Upload, keine Server-Komponente, keine Cloud-Inferenz. Das ist ein zentraler Unterschied zu vielen kommerziellen Anbietern, bei denen das Video auf einen US-Server hochgeladen, dort analysiert und das Ergebnis zurückgeschickt wird. Selbst wenn dort kein Tracking stattfindet, ist die Datenhoheit nicht in deiner Hand.

Hier bleibt das Video im Browser-Tab. Beim Schließen des Tabs wird der Arbeitsspeicher freigegeben und das Video ist weg. Die einzige Netzwerk-Verbindung, die das Tool aufbaut, ist der einmalige Download der Modell-Datei beim ersten Aufruf — danach läuft das Tool offline.

Das ist DSGVO-konform und kompatibel mit allen Datenschutz-Vorgaben, die du in vertraulichen oder rechtlich heiklen Szenarien einhalten musst — Sport-Aufnahmen mit Kindern, geschäftliche Videos mit Personen, medizinische oder Sicherheits-Material.

Mögliche Anwendungsfälle

Sport-Analyse: Anzahl der Spieler im Bild über Zeit, Heatmap der Spielerpositionen, Anzahl der Ball-Sichtungen.
Verkehrsfluss: Anzahl der Fahrzeuge pro Sekunde, Heatmap der Verkehrsknoten.
Crowd-Counting: Anzahl der Personen im Bild pro Frame als CSV-Zeitreihe.
Video-Editing: Heatmap als Cropping-Vorlage, um den perfekten 9:16-Ausschnitt für Social Media zu finden.
Forschung: Tier-Beobachtungen mit Zeitstempeln statt manueller Annotation.
Inhalts-Check: Liste aller Klassen, die in einem Video vorkommen, vor der Veröffentlichung.

Video-Objekterkennung — Boxen offline im Browser

So funktioniert es

Video auswählen

Analyse-Einstellungen festlegen

Analyse starten und Ergebnis exportieren

Datenschutz

Wie benutzt du dieses Tool?