Wie benutzt du dieses Tool?
- CSV-Datei in das Drop-Feld ziehen oder auswählen — bis 50 MB werden direkt verarbeitet
- Zeichensatz und Trennzeichen werden automatisch erkannt und angezeigt — bei Bedarf manuell überschreiben
- Bereinigungs-Optionen ein- oder ausschalten und die Vorher/Nachher-Vorschau prüfen
- Format wählen — CSV mit BOM (Excel-tauglich), CSV ohne BOM oder Excel-Tabelle (.xlsx) — und herunterladen
Was macht dieses Tool genau?
Das Tool nimmt eine CSV-Datei entgegen und erledigt vier Schritte, die bei deutschen Spreadsheet-Exports fast immer nötig sind:
- Zeichensatz erkennen. Aus den ersten Bytes wird ermittelt, ob die Datei in UTF-8, Latin-1 oder Windows-1252 vorliegt. Eine vorhandene Byte-Order-Mark (BOM) wird respektiert; sonst greift eine Heuristik, die typische deutsche Sonderzeichen (€, „ ”, smart quotes) zur Disambiguierung nutzt.
- Trennzeichen erkennen. Aus den ersten zehn Zeilen wird die häufigste konsistente Spaltentrennung ermittelt — Komma, Semikolon, Tabulator oder Pipe. Anführungszeichen werden bei der Zählung respektiert, damit eingebettete Kommas in Quoted-Feldern nicht das Ergebnis verzerren.
- Daten bereinigen. Leerzeilen werden entfernt, doppelte Spaltennamen erhalten Zähler-Suffixe (
_2,_3), und deutsche Zahlenformate wie1.234,56werden ins maschinenlesbare1234.56umgewandelt — letzteres optional, mit konservativer Heuristik (Versionsnummern wie1.234bleiben unangetastet). - Ausgabe erzeugen. Drei Formate stehen zur Wahl: CSV mit UTF-8-BOM (Excel-tauglich per Doppelklick), CSV ohne BOM (für Pandas, SQL, R) oder eine echte Excel-Tabelle (.xlsx) mit Zahlen-Typisierung.
Alle Schritte laufen vollständig im Browser-Tab. Der Code lädt keine externen Skripte zur Laufzeit, sendet keine Telemetrie und legt nichts im Browser-Speicher ab.
Encoding-Detection — wie funktioniert das technisch?
Eine CSV-Datei enthält keine Metadaten zu ihrem Zeichensatz. Wer sie öffnet, muss raten — und falsch geratenes UTF-8 ist genau der Grund, warum aus „Müller” plötzlich „MÃ``¼ller” wird.
Die Erkennung läuft in drei Stufen:
1. BOM-Probe. Beginnt die Datei mit den Bytes EF BB BF, ist sie sicher UTF-8 mit Byte-Order-Mark — keine weitere Analyse nötig.
2. Strikte UTF-8-Validierung. Der Decoder versucht, die kompletten Bytes als UTF-8 zu interpretieren. Schlägt das fehl (ungültige Multi-Byte-Sequenz), kann es kein UTF-8 sein. Gelingt es, wird UTF-8 angenommen — bei reinen ASCII-Dateien ist das immer der Fall, weil ASCII eine Untermenge von UTF-8 ist.
3. CP1252-vs-Latin-1-Heuristik. Schlägt UTF-8 fehl, prüft das Tool die Byte-Range 0x80–0x9F. Genau in diesem Bereich unterscheiden sich die beiden Codepages: Latin-1 lässt diese Bytes leer, Windows-1252 belegt sie mit dem Euro-Symbol, deutschen Anführungszeichen, Em- und En-Dashes. Tauchen diese diagnostischen Bytes auf, wird CP1252 gewählt — sonst Latin-1.
Diese drei Stufen decken über 99 % der deutschen Spreadsheet-Exports ab, ohne dass eine externe Bibliothek geladen werden muss.
Trennzeichen-Detection — wann verlässt sich Excel auf Semikolon?
Deutsche Excel-Versionen exportieren CSV standardmäßig mit Semikolon, weil das Komma im DACH-Raum als Dezimaltrennzeichen reserviert ist. US-Excel exportiert mit Komma. Wer eine US-CSV in DE-Excel öffnet (oder umgekehrt), bekommt eine einzige Mega-Spalte, weil Excel das falsche Trennzeichen erwartet.
Die Detection vergleicht in den ersten zehn Zeilen die Häufigkeit von vier Kandidaten — Komma, Semikolon, Tabulator, Pipe. Bewertet wird:
- Median pro Zeile. Ein Trennzeichen, das in jeder Zeile drei Mal vorkommt, ist wahrscheinlicher als eins, das mal sieben Mal und mal gar nicht erscheint.
- Konsistenz. Wie viele der Stichproben-Zeilen enthalten das Trennzeichen überhaupt? Ein Sieger muss in den meisten Zeilen auftauchen.
- Quote-Awareness. Kommas innerhalb von
"… , …"zählen nicht — sie sind Teil des Inhalts, nicht des Trennzeichens.
Bei Mehrdeutigkeit gewinnt das Komma als RFC-4180-Default. Eine manuelle Überschreibung steht jederzeit zur Verfügung.
Welche CSV-Probleme tauchen bei deutschen Daten am häufigsten auf?
Diese fünf Problemklassen begegnen Datenanalysten und Buchhaltern fast täglich — und genau dafür ist das Tool gebaut:
Problem 1: Umlaute werden zu Mojibake. Symptom: „Größe” wird zu „GrÃ``¶``Ã``Ÿe”. Ursache: Die Datei ist Latin-1 oder CP1252 codiert, der Reader interpretiert sie als UTF-8. Lösung: Auto-Encoding-Detection schaltet auf den richtigen Decoder um, das Tool gibt die Datei als sauberes UTF-8 wieder aus.
Problem 2: Alle Spalten in einer Zelle. Symptom: Beim Öffnen in Excel landet die ganze Zeile in Spalte A. Ursache: Die CSV nutzt Komma, das Excel-Locale erwartet Semikolon (oder umgekehrt). Lösung: Die Trennzeichen-Detection erkennt das tatsächliche Trennzeichen unabhängig vom Locale, der Output kann auf das gewünschte Ziel-Trennzeichen umgestellt werden.
Problem 3: Power-BI / Pandas / SQL erkennen Zahlen nicht. Symptom: Beträge wie „1.234,56” werden als Text statt Zahl importiert, Aggregationen funktionieren nicht. Ursache: Tools außerhalb des DACH-Raums verstehen nur den Punkt-als-Dezimalpunkt. Lösung: Die Number-Normalize-Option formt die Zellen ins maschinenlesbare Format 1234.56 um, sicher und reversibel — Versionsnummern und IDs bleiben unangetastet.
Problem 4: Doppelte Spaltennamen. Symptom: Pandas liest die Datei ein, aber die zweite „Datum”-Spalte wird stillschweigend ignoriert. Ursache: Viele DataFrame-Bibliotheken erlauben keine duplizierten Header. Lösung: Doppelte Header werden mit einem _2/_3-Suffix versehen, leere Header werden zu column_N. Garantiert eindeutige Spaltennamen.
Problem 5: Leerzeilen aus Excel-Export. Symptom: Statistik-Tools werfen Fehler bei leeren Zeilen, Pandas erzeugt NaN-Reihen. Ursache: Excel exportiert oft mit einer Leerzeile am Ende oder zwischen Sektionen. Lösung: Vollständig leere Zeilen werden entfernt, ohne dass Zellen mit Inhalt verloren gehen.
Datenschutz — 100 % im Browser
Konkurrenzangebote für CSV-Bereinigung — unabhängig davon, ob es sich um Web-Konverter wie Convertio, OnlineConvertFree, CSVtoTable oder Browserling handelt — laden die Datei zur Verarbeitung auf einen Server. Die meisten dieser Dienste nennen das in den AGB; manche speichern die Datei „bis zu zwei Stunden zur Verarbeitung”, andere länger.
Für CSV-Daten ist das ein größeres Risiko als bei Bildern: Eine Tabellen-Datei enthält oft Klarnamen, Adressen, Buchungssätze, Kontodaten oder Mitarbeiter-IDs. DSGVO-konform ist ein Server-Upload solcher Daten nur mit Auftragsverarbeitungs-Vertrag — den die wenigsten Free-Tier-Anbieter abschließen.
Dieses Tool macht Server-Upload strukturell unmöglich: Die Verarbeitung läuft ausschließlich im Browser-Tab, geliefert über statisches Hosting. Es gibt keinen Backend-Endpoint, der Datei-Inhalte annehmen könnte. Auch die optionale Excel-Ausgabe wird komplett im Browser zusammengesetzt — ohne externe Server-Calls.
Welche CSV-Formate werden unterstützt?
Akzeptierte Eingaben:
- Standard-CSV mit Komma, Semikolon, Tabulator oder Pipe als Trennzeichen
- TSV (Tab-Separated-Values,
.tsv/.tab) - Plaintext-Tabellen (
.txt) mit erkennbarem Spaltentrennzeichen - UTF-8 (mit oder ohne BOM), Latin-1 (ISO-8859-1), Windows-1252
- Quoted-Felder nach RFC-4180 mit doppelten Anführungszeichen als Escape
- Beliebige Zeilenenden (
\n,\r\n,\r)
Akzeptierte Ausgaben:
- CSV mit UTF-8-BOM — öffnet in Excel sofort korrekt per Doppelklick
- CSV ohne BOM — passt für Pandas, R, SQL-Importer, Linux-Tooling
- Excel-Tabelle (
.xlsx) — Zahlen werden als numerische Zellen typisiert, Header fett
Bewusst nicht im Scope:
- ZIP-/GZIP-komprimierte CSVs — vorher entpacken
- CSVs mit Fixed-Width-Spalten ohne Trennzeichen — Sonderfall, eigene Pipeline nötig
- Multi-Sheet-Tabellen — eine CSV ist per Definition ein Sheet
Häufige Fragen
Die häufigsten Rückfragen zu Bedienung und Datenschutz:
Warum sind in meiner CSV-Datei statt Umlauten kaputte Mojibake-Zeichen zu sehen?
Die Datei wurde mit einem anderen Zeichensatz gespeichert, als das öffnende Programm erwartet. Deutsche Excel- und ERP-Exporte nutzen oft Windows-1252 oder Latin-1 statt UTF-8 — wenn ein UTF-8-Reader das öffnet, interpretiert er jedes Umlaut-Byte als zwei Zeichen. Das Tool erkennt den ursprünglichen Zeichensatz und wandelt ihn nach UTF-8 um.
Wie erkennt das Tool, ob mein CSV mit Komma oder Semikolon getrennt ist?
Das Tool zählt in den ersten zehn Zeilen, wie oft jedes Kandidaten-Trennzeichen außerhalb von Anführungszeichen vorkommt. Das Zeichen mit der konsistentesten Häufigkeit pro Zeile gewinnt. Erkannt werden Komma, Semikolon, Tabulator und Pipe. Die Auto-Erkennung lässt sich jederzeit per Dropdown überschreiben.
Was bedeutet die Option „Deutsche Zahlen umwandeln”?
Deutsche Spreadsheets schreiben Tausender mit Punkt und Dezimalstellen mit Komma — also „1.234,56”. Pandas, R und SQL erwarten Punkt-als-Dezimal — „1234.56”. Diese Option formt jede Zelle, die strikt dem deutschen Muster entspricht, in das maschinenlesbare Format um. Versionsnummern wie „1.234” bleiben unverändert.
Werden meine CSV-Daten auf einen Server hochgeladen?
Nein. Die gesamte Erkennung und Umwandlung läuft in deinem Browser-Tab. Die Datei wird nicht hochgeladen, nicht gespeichert und nicht analysiert.
Welche verwandten Tools gibt es?
Weitere Tools im Daten- und Dokumenten-Cluster:
- JSON zu CSV — JSON-Arrays in eine CSV-Tabelle exportieren, mit Dot-Notation für verschachtelte Felder.
- CSV zu Markdown — CSV-Tabellen in Markdown-Pipe-Tables umwandeln, ideal für GitHub-READMEs und Dokumentation.
- Datei-Hash-Prüfer — SHA-256/512/BLAKE3-Hashes berechnen und gegen Sidecar-Files verifizieren, vollständig im Browser.
Zuletzt aktualisiert: