Zum Inhalt springen
Läuft lokal · kein Upload

CSV-Import bereinigen

Encoding-Salat, falsches Trennzeichen, Komma statt Punkt — in einem Schritt sauber gemacht, lokal im Browser.

CSV-Datei hier ablegen

Oder klicken — bis 50 MB. Akzeptiert .csv, .tsv, .txt

Datei wählen

Lade eine CSV-Datei hoch — Zeichensatz und Trennzeichen werden automatisch erkannt.

So funktioniert es

  1. 01

    Datei einlesen

    Lege die CSV-Datei per Drag & Drop in das Feld oder wähle sie über den Datei-Browser. Bis 50 MB werden direkt im Browser verarbeitet — kein Upload.

  2. 02

    Auto-Erkennung prüfen

    Zeichensatz und Trennzeichen werden automatisch erkannt und angezeigt. Stimmt etwas nicht, kannst du beides per Dropdown überschreiben — die Vorschau aktualisiert sich sofort.

  3. 03

    Bereinigen & herunterladen

    Wähle das Ausgabe-Format — CSV mit BOM für Excel, CSV ohne BOM für SQL/Pandas, oder Excel-Tabelle. Der Download startet sofort, ohne Wartezeit.

Datenschutz

Die Datei wird ausschließlich im Browser-Tab verarbeitet. Es gibt keinen Server-Upload, keine Speicherung, keine Telemetrie. Das gilt für die Encoding-Erkennung, das Parsing, die Zahlenumwandlung und den Output.

Wer eine CSV aus einem deutschen ERP, einer Bank oder dem Steuerprogramm exportiert, kennt den Schmerz: Umlaute werden zu Mojibake-Zeichen, Excel verliert die Spaltenstruktur und Power-BI streikt bei deutschen Dezimalkommas. Dieses Tool erkennt Zeichensatz und Trennzeichen automatisch, entfernt Leerzeilen, dedupliziert doppelte Spaltennamen und wandelt deutsche Zahlen ins maschinenlesbare Format. Alles passiert im Browser-Tab — keine Datei verlässt dein Gerät.

01 — Anleitung

Wie benutzt du dieses Tool?

  1. CSV-Datei in das Drop-Feld ziehen oder auswählen — bis 50 MB werden direkt verarbeitet
  2. Zeichensatz und Trennzeichen werden automatisch erkannt und angezeigt — bei Bedarf manuell überschreiben
  3. Bereinigungs-Optionen ein- oder ausschalten und die Vorher/Nachher-Vorschau prüfen
  4. Format wählen — CSV mit BOM (Excel-tauglich), CSV ohne BOM oder Excel-Tabelle (.xlsx) — und herunterladen

Was macht dieses Tool genau?

Das Tool nimmt eine CSV-Datei entgegen und erledigt vier Schritte, die bei deutschen Spreadsheet-Exports fast immer nötig sind:

  1. Zeichensatz erkennen. Aus den ersten Bytes wird ermittelt, ob die Datei in UTF-8, Latin-1 oder Windows-1252 vorliegt. Eine vorhandene Byte-Order-Mark (BOM) wird respektiert; sonst greift eine Heuristik, die typische deutsche Sonderzeichen (€, „ ”, smart quotes) zur Disambiguierung nutzt.
  2. Trennzeichen erkennen. Aus den ersten zehn Zeilen wird die häufigste konsistente Spaltentrennung ermittelt — Komma, Semikolon, Tabulator oder Pipe. Anführungszeichen werden bei der Zählung respektiert, damit eingebettete Kommas in Quoted-Feldern nicht das Ergebnis verzerren.
  3. Daten bereinigen. Leerzeilen werden entfernt, doppelte Spaltennamen erhalten Zähler-Suffixe (_2, _3), und deutsche Zahlenformate wie 1.234,56 werden ins maschinenlesbare 1234.56 umgewandelt — letzteres optional, mit konservativer Heuristik (Versionsnummern wie 1.234 bleiben unangetastet).
  4. Ausgabe erzeugen. Drei Formate stehen zur Wahl: CSV mit UTF-8-BOM (Excel-tauglich per Doppelklick), CSV ohne BOM (für Pandas, SQL, R) oder eine echte Excel-Tabelle (.xlsx) mit Zahlen-Typisierung.

Alle Schritte laufen vollständig im Browser-Tab. Der Code lädt keine externen Skripte zur Laufzeit, sendet keine Telemetrie und legt nichts im Browser-Speicher ab.

Encoding-Detection — wie funktioniert das technisch?

Eine CSV-Datei enthält keine Metadaten zu ihrem Zeichensatz. Wer sie öffnet, muss raten — und falsch geratenes UTF-8 ist genau der Grund, warum aus „Müller” plötzlich „MÃ``¼ller” wird.

Die Erkennung läuft in drei Stufen:

1. BOM-Probe. Beginnt die Datei mit den Bytes EF BB BF, ist sie sicher UTF-8 mit Byte-Order-Mark — keine weitere Analyse nötig.

2. Strikte UTF-8-Validierung. Der Decoder versucht, die kompletten Bytes als UTF-8 zu interpretieren. Schlägt das fehl (ungültige Multi-Byte-Sequenz), kann es kein UTF-8 sein. Gelingt es, wird UTF-8 angenommen — bei reinen ASCII-Dateien ist das immer der Fall, weil ASCII eine Untermenge von UTF-8 ist.

3. CP1252-vs-Latin-1-Heuristik. Schlägt UTF-8 fehl, prüft das Tool die Byte-Range 0x80–0x9F. Genau in diesem Bereich unterscheiden sich die beiden Codepages: Latin-1 lässt diese Bytes leer, Windows-1252 belegt sie mit dem Euro-Symbol, deutschen Anführungszeichen, Em- und En-Dashes. Tauchen diese diagnostischen Bytes auf, wird CP1252 gewählt — sonst Latin-1.

Diese drei Stufen decken über 99 % der deutschen Spreadsheet-Exports ab, ohne dass eine externe Bibliothek geladen werden muss.

Trennzeichen-Detection — wann verlässt sich Excel auf Semikolon?

Deutsche Excel-Versionen exportieren CSV standardmäßig mit Semikolon, weil das Komma im DACH-Raum als Dezimaltrennzeichen reserviert ist. US-Excel exportiert mit Komma. Wer eine US-CSV in DE-Excel öffnet (oder umgekehrt), bekommt eine einzige Mega-Spalte, weil Excel das falsche Trennzeichen erwartet.

Die Detection vergleicht in den ersten zehn Zeilen die Häufigkeit von vier Kandidaten — Komma, Semikolon, Tabulator, Pipe. Bewertet wird:

  • Median pro Zeile. Ein Trennzeichen, das in jeder Zeile drei Mal vorkommt, ist wahrscheinlicher als eins, das mal sieben Mal und mal gar nicht erscheint.
  • Konsistenz. Wie viele der Stichproben-Zeilen enthalten das Trennzeichen überhaupt? Ein Sieger muss in den meisten Zeilen auftauchen.
  • Quote-Awareness. Kommas innerhalb von "… , …" zählen nicht — sie sind Teil des Inhalts, nicht des Trennzeichens.

Bei Mehrdeutigkeit gewinnt das Komma als RFC-4180-Default. Eine manuelle Überschreibung steht jederzeit zur Verfügung.

Welche CSV-Probleme tauchen bei deutschen Daten am häufigsten auf?

Diese fünf Problemklassen begegnen Datenanalysten und Buchhaltern fast täglich — und genau dafür ist das Tool gebaut:

Problem 1: Umlaute werden zu Mojibake. Symptom: „Größe” wird zu „GrÃ``¶``Ã``Ÿe”. Ursache: Die Datei ist Latin-1 oder CP1252 codiert, der Reader interpretiert sie als UTF-8. Lösung: Auto-Encoding-Detection schaltet auf den richtigen Decoder um, das Tool gibt die Datei als sauberes UTF-8 wieder aus.

Problem 2: Alle Spalten in einer Zelle. Symptom: Beim Öffnen in Excel landet die ganze Zeile in Spalte A. Ursache: Die CSV nutzt Komma, das Excel-Locale erwartet Semikolon (oder umgekehrt). Lösung: Die Trennzeichen-Detection erkennt das tatsächliche Trennzeichen unabhängig vom Locale, der Output kann auf das gewünschte Ziel-Trennzeichen umgestellt werden.

Problem 3: Power-BI / Pandas / SQL erkennen Zahlen nicht. Symptom: Beträge wie „1.234,56” werden als Text statt Zahl importiert, Aggregationen funktionieren nicht. Ursache: Tools außerhalb des DACH-Raums verstehen nur den Punkt-als-Dezimalpunkt. Lösung: Die Number-Normalize-Option formt die Zellen ins maschinenlesbare Format 1234.56 um, sicher und reversibel — Versionsnummern und IDs bleiben unangetastet.

Problem 4: Doppelte Spaltennamen. Symptom: Pandas liest die Datei ein, aber die zweite „Datum”-Spalte wird stillschweigend ignoriert. Ursache: Viele DataFrame-Bibliotheken erlauben keine duplizierten Header. Lösung: Doppelte Header werden mit einem _2/_3-Suffix versehen, leere Header werden zu column_N. Garantiert eindeutige Spaltennamen.

Problem 5: Leerzeilen aus Excel-Export. Symptom: Statistik-Tools werfen Fehler bei leeren Zeilen, Pandas erzeugt NaN-Reihen. Ursache: Excel exportiert oft mit einer Leerzeile am Ende oder zwischen Sektionen. Lösung: Vollständig leere Zeilen werden entfernt, ohne dass Zellen mit Inhalt verloren gehen.

Datenschutz — 100 % im Browser

Konkurrenzangebote für CSV-Bereinigung — unabhängig davon, ob es sich um Web-Konverter wie Convertio, OnlineConvertFree, CSVtoTable oder Browserling handelt — laden die Datei zur Verarbeitung auf einen Server. Die meisten dieser Dienste nennen das in den AGB; manche speichern die Datei „bis zu zwei Stunden zur Verarbeitung”, andere länger.

Für CSV-Daten ist das ein größeres Risiko als bei Bildern: Eine Tabellen-Datei enthält oft Klarnamen, Adressen, Buchungssätze, Kontodaten oder Mitarbeiter-IDs. DSGVO-konform ist ein Server-Upload solcher Daten nur mit Auftragsverarbeitungs-Vertrag — den die wenigsten Free-Tier-Anbieter abschließen.

Dieses Tool macht Server-Upload strukturell unmöglich: Die Verarbeitung läuft ausschließlich im Browser-Tab, geliefert über statisches Hosting. Es gibt keinen Backend-Endpoint, der Datei-Inhalte annehmen könnte. Auch die optionale Excel-Ausgabe wird komplett im Browser zusammengesetzt — ohne externe Server-Calls.

Welche CSV-Formate werden unterstützt?

Akzeptierte Eingaben:

  • Standard-CSV mit Komma, Semikolon, Tabulator oder Pipe als Trennzeichen
  • TSV (Tab-Separated-Values, .tsv/.tab)
  • Plaintext-Tabellen (.txt) mit erkennbarem Spaltentrennzeichen
  • UTF-8 (mit oder ohne BOM), Latin-1 (ISO-8859-1), Windows-1252
  • Quoted-Felder nach RFC-4180 mit doppelten Anführungszeichen als Escape
  • Beliebige Zeilenenden (\n, \r\n, \r)

Akzeptierte Ausgaben:

  • CSV mit UTF-8-BOM — öffnet in Excel sofort korrekt per Doppelklick
  • CSV ohne BOM — passt für Pandas, R, SQL-Importer, Linux-Tooling
  • Excel-Tabelle (.xlsx) — Zahlen werden als numerische Zellen typisiert, Header fett

Bewusst nicht im Scope:

  • ZIP-/GZIP-komprimierte CSVs — vorher entpacken
  • CSVs mit Fixed-Width-Spalten ohne Trennzeichen — Sonderfall, eigene Pipeline nötig
  • Multi-Sheet-Tabellen — eine CSV ist per Definition ein Sheet

Häufige Fragen

Die häufigsten Rückfragen zu Bedienung und Datenschutz:

Warum sind in meiner CSV-Datei statt Umlauten kaputte Mojibake-Zeichen zu sehen?

Die Datei wurde mit einem anderen Zeichensatz gespeichert, als das öffnende Programm erwartet. Deutsche Excel- und ERP-Exporte nutzen oft Windows-1252 oder Latin-1 statt UTF-8 — wenn ein UTF-8-Reader das öffnet, interpretiert er jedes Umlaut-Byte als zwei Zeichen. Das Tool erkennt den ursprünglichen Zeichensatz und wandelt ihn nach UTF-8 um.

Wie erkennt das Tool, ob mein CSV mit Komma oder Semikolon getrennt ist?

Das Tool zählt in den ersten zehn Zeilen, wie oft jedes Kandidaten-Trennzeichen außerhalb von Anführungszeichen vorkommt. Das Zeichen mit der konsistentesten Häufigkeit pro Zeile gewinnt. Erkannt werden Komma, Semikolon, Tabulator und Pipe. Die Auto-Erkennung lässt sich jederzeit per Dropdown überschreiben.

Was bedeutet die Option „Deutsche Zahlen umwandeln”?

Deutsche Spreadsheets schreiben Tausender mit Punkt und Dezimalstellen mit Komma — also „1.234,56”. Pandas, R und SQL erwarten Punkt-als-Dezimal — „1234.56”. Diese Option formt jede Zelle, die strikt dem deutschen Muster entspricht, in das maschinenlesbare Format um. Versionsnummern wie „1.234” bleiben unverändert.

Werden meine CSV-Daten auf einen Server hochgeladen?

Nein. Die gesamte Erkennung und Umwandlung läuft in deinem Browser-Tab. Die Datei wird nicht hochgeladen, nicht gespeichert und nicht analysiert.

Welche verwandten Tools gibt es?

Weitere Tools im Daten- und Dokumenten-Cluster:

  • JSON zu CSV — JSON-Arrays in eine CSV-Tabelle exportieren, mit Dot-Notation für verschachtelte Felder.
  • CSV zu Markdown — CSV-Tabellen in Markdown-Pipe-Tables umwandeln, ideal für GitHub-READMEs und Dokumentation.
  • Datei-Hash-Prüfer — SHA-256/512/BLAKE3-Hashes berechnen und gegen Sidecar-Files verifizieren, vollständig im Browser.

Zuletzt aktualisiert:

Das könnte dir auch gefallen