Welche Datei-Größen sind möglich?

Bis zu 50 MB pro Datei werden direkt verarbeitet — das deckt typische Spreadsheet-Exports auch über mehrere Hunderttausend Zeilen ab. Größere Dateien splitten die meisten Tools sowieso, weil Excel selbst nur 1.048.576 Zeilen pro Sheet erlaubt.

Wie werden doppelte Spaltennamen behandelt?

Doppelte Header bekommen einen Zähler-Suffix — aus „Datum, Datum, Datum“ wird „Datum, Datum_2, Datum_3“. Leere Header-Zellen werden zu „column_N“ umbenannt. Damit lässt sich die Datei garantiert in Pandas, R oder SQL einlesen, ohne dass eine Spalte stillschweigend überschrieben wird.

Bleiben Zeichen in Anführungszeichen — etwa Texte mit Komma — korrekt erhalten?

Ja. Der Parser folgt dem RFC-4180-Standard und behandelt Felder in Anführungszeichen unteilbar. Das Trennzeichen innerhalb eines Quoted-Felds wird ignoriert, doppelte Anführungszeichen werden korrekt als einzelnes Zeichen entcodet.

CSV bereinigen — Encoding, Trennzeichen & Zahlenformat fix

Was macht dieses Tool genau?

Das Tool nimmt eine CSV-Datei entgegen und erledigt vier Schritte, die bei deutschen Spreadsheet-Exports fast immer nötig sind:

Zeichensatz erkennen. Aus den ersten Bytes wird ermittelt, ob die Datei in UTF-8, Latin-1 oder Windows-1252 vorliegt. Eine vorhandene Byte-Order-Mark (BOM) wird respektiert; sonst greift eine Heuristik, die typische deutsche Sonderzeichen (€, „ ”, smart quotes) zur Disambiguierung nutzt.
Trennzeichen erkennen. Aus den ersten zehn Zeilen wird die häufigste konsistente Spaltentrennung ermittelt — Komma, Semikolon, Tabulator oder Pipe. Anführungszeichen werden bei der Zählung respektiert, damit eingebettete Kommas in Quoted-Feldern nicht das Ergebnis verzerren.
Daten bereinigen. Leerzeilen werden entfernt, doppelte Spaltennamen erhalten Zähler-Suffixe (_2, _3), und deutsche Zahlenformate wie 1.234,56 werden ins maschinenlesbare 1234.56 umgewandelt — letzteres optional, mit konservativer Heuristik (Versionsnummern wie 1.234 bleiben unangetastet).
Ausgabe erzeugen. Drei Formate stehen zur Wahl: CSV mit UTF-8-BOM (Excel-tauglich per Doppelklick), CSV ohne BOM (für Pandas, SQL, R) oder eine echte Excel-Tabelle (.xlsx) mit Zahlen-Typisierung.

Alle Schritte laufen vollständig im Browser-Tab. Der Code lädt keine externen Skripte zur Laufzeit, sendet keine Telemetrie und legt nichts im Browser-Speicher ab.

Encoding-Detection — wie funktioniert das technisch?

Eine CSV-Datei enthält keine Metadaten zu ihrem Zeichensatz. Wer sie öffnet, muss raten — und falsch geratenes UTF-8 ist genau der Grund, warum aus „Müller” plötzlich „MÃ``¼ller” wird.

Die Erkennung läuft in drei Stufen:

1. BOM-Probe. Beginnt die Datei mit den Bytes EF BB BF, ist sie sicher UTF-8 mit Byte-Order-Mark — keine weitere Analyse nötig.

2. Strikte UTF-8-Validierung. Der Decoder versucht, die kompletten Bytes als UTF-8 zu interpretieren. Schlägt das fehl (ungültige Multi-Byte-Sequenz), kann es kein UTF-8 sein. Gelingt es, wird UTF-8 angenommen — bei reinen ASCII-Dateien ist das immer der Fall, weil ASCII eine Untermenge von UTF-8 ist.

3. CP1252-vs-Latin-1-Heuristik. Schlägt UTF-8 fehl, prüft das Tool die Byte-Range 0x80–0x9F. Genau in diesem Bereich unterscheiden sich die beiden Codepages: Latin-1 lässt diese Bytes leer, Windows-1252 belegt sie mit dem Euro-Symbol, deutschen Anführungszeichen, Em- und En-Dashes. Tauchen diese diagnostischen Bytes auf, wird CP1252 gewählt — sonst Latin-1.

Diese drei Stufen decken über 99 % der deutschen Spreadsheet-Exports ab, ohne dass eine externe Bibliothek geladen werden muss.

Trennzeichen-Detection — wann verlässt sich Excel auf Semikolon?

Deutsche Excel-Versionen exportieren CSV standardmäßig mit Semikolon, weil das Komma im DACH-Raum als Dezimaltrennzeichen reserviert ist. US-Excel exportiert mit Komma. Wer eine US-CSV in DE-Excel öffnet (oder umgekehrt), bekommt eine einzige Mega-Spalte, weil Excel das falsche Trennzeichen erwartet.

Die Detection vergleicht in den ersten zehn Zeilen die Häufigkeit von vier Kandidaten — Komma, Semikolon, Tabulator, Pipe. Bewertet wird:

Median pro Zeile. Ein Trennzeichen, das in jeder Zeile drei Mal vorkommt, ist wahrscheinlicher als eins, das mal sieben Mal und mal gar nicht erscheint.
Konsistenz. Wie viele der Stichproben-Zeilen enthalten das Trennzeichen überhaupt? Ein Sieger muss in den meisten Zeilen auftauchen.
Quote-Awareness. Kommas innerhalb von "… , …" zählen nicht — sie sind Teil des Inhalts, nicht des Trennzeichens.

Bei Mehrdeutigkeit gewinnt das Komma als RFC-4180-Default. Eine manuelle Überschreibung steht jederzeit zur Verfügung.

Welche CSV-Probleme tauchen bei deutschen Daten am häufigsten auf?

Diese fünf Problemklassen begegnen Datenanalysten und Buchhaltern fast täglich — und genau dafür ist das Tool gebaut:

Problem 1: Umlaute werden zu Mojibake. Symptom: „Größe” wird zu „GrÃ``¶``Ã``Ÿe”. Ursache: Die Datei ist Latin-1 oder CP1252 codiert, der Reader interpretiert sie als UTF-8. Lösung: Auto-Encoding-Detection schaltet auf den richtigen Decoder um, das Tool gibt die Datei als sauberes UTF-8 wieder aus.

Problem 2: Alle Spalten in einer Zelle. Symptom: Beim Öffnen in Excel landet die ganze Zeile in Spalte A. Ursache: Die CSV nutzt Komma, das Excel-Locale erwartet Semikolon (oder umgekehrt). Lösung: Die Trennzeichen-Detection erkennt das tatsächliche Trennzeichen unabhängig vom Locale, der Output kann auf das gewünschte Ziel-Trennzeichen umgestellt werden.

Problem 3: Power-BI / Pandas / SQL erkennen Zahlen nicht. Symptom: Beträge wie „1.234,56” werden als Text statt Zahl importiert, Aggregationen funktionieren nicht. Ursache: Tools außerhalb des DACH-Raums verstehen nur den Punkt-als-Dezimalpunkt. Lösung: Die Number-Normalize-Option formt die Zellen ins maschinenlesbare Format 1234.56 um, sicher und reversibel — Versionsnummern und IDs bleiben unangetastet.

Problem 4: Doppelte Spaltennamen. Symptom: Pandas liest die Datei ein, aber die zweite „Datum”-Spalte wird stillschweigend ignoriert. Ursache: Viele DataFrame-Bibliotheken erlauben keine duplizierten Header. Lösung: Doppelte Header werden mit einem _2/_3-Suffix versehen, leere Header werden zu column_N. Garantiert eindeutige Spaltennamen.

Problem 5: Leerzeilen aus Excel-Export. Symptom: Statistik-Tools werfen Fehler bei leeren Zeilen, Pandas erzeugt NaN-Reihen. Ursache: Excel exportiert oft mit einer Leerzeile am Ende oder zwischen Sektionen. Lösung: Vollständig leere Zeilen werden entfernt, ohne dass Zellen mit Inhalt verloren gehen.

Datenschutz — 100 % im Browser

Konkurrenzangebote für CSV-Bereinigung — unabhängig davon, ob es sich um Web-Konverter wie Convertio, OnlineConvertFree, CSVtoTable oder Browserling handelt — laden die Datei zur Verarbeitung auf einen Server. Die meisten dieser Dienste nennen das in den AGB; manche speichern die Datei „bis zu zwei Stunden zur Verarbeitung”, andere länger.

Für CSV-Daten ist das ein größeres Risiko als bei Bildern: Eine Tabellen-Datei enthält oft Klarnamen, Adressen, Buchungssätze, Kontodaten oder Mitarbeiter-IDs. DSGVO-konform ist ein Server-Upload solcher Daten nur mit Auftragsverarbeitungs-Vertrag — den die wenigsten Free-Tier-Anbieter abschließen.

Dieses Tool macht Server-Upload strukturell unmöglich: Die Verarbeitung läuft ausschließlich im Browser-Tab, geliefert über statisches Hosting. Es gibt keinen Backend-Endpoint, der Datei-Inhalte annehmen könnte. Auch die optionale Excel-Ausgabe wird komplett im Browser zusammengesetzt — ohne externe Server-Calls.

Welche CSV-Formate werden unterstützt?

Akzeptierte Eingaben:

Standard-CSV mit Komma, Semikolon, Tabulator oder Pipe als Trennzeichen
TSV (Tab-Separated-Values, .tsv/.tab)
Plaintext-Tabellen (.txt) mit erkennbarem Spaltentrennzeichen
UTF-8 (mit oder ohne BOM), Latin-1 (ISO-8859-1), Windows-1252
Quoted-Felder nach RFC-4180 mit doppelten Anführungszeichen als Escape
Beliebige Zeilenenden (\n, \r\n, \r)

Akzeptierte Ausgaben:

CSV mit UTF-8-BOM — öffnet in Excel sofort korrekt per Doppelklick
CSV ohne BOM — passt für Pandas, R, SQL-Importer, Linux-Tooling
Excel-Tabelle (.xlsx) — Zahlen werden als numerische Zellen typisiert, Header fett

Bewusst nicht im Scope:

ZIP-/GZIP-komprimierte CSVs — vorher entpacken
CSVs mit Fixed-Width-Spalten ohne Trennzeichen — Sonderfall, eigene Pipeline nötig
Multi-Sheet-Tabellen — eine CSV ist per Definition ein Sheet

Häufige Fragen

Die häufigsten Rückfragen zu Bedienung und Datenschutz:

Warum sind in meiner CSV-Datei statt Umlauten kaputte Mojibake-Zeichen zu sehen?

Die Datei wurde mit einem anderen Zeichensatz gespeichert, als das öffnende Programm erwartet. Deutsche Excel- und ERP-Exporte nutzen oft Windows-1252 oder Latin-1 statt UTF-8 — wenn ein UTF-8-Reader das öffnet, interpretiert er jedes Umlaut-Byte als zwei Zeichen. Das Tool erkennt den ursprünglichen Zeichensatz und wandelt ihn nach UTF-8 um.

Wie erkennt das Tool, ob mein CSV mit Komma oder Semikolon getrennt ist?

Das Tool zählt in den ersten zehn Zeilen, wie oft jedes Kandidaten-Trennzeichen außerhalb von Anführungszeichen vorkommt. Das Zeichen mit der konsistentesten Häufigkeit pro Zeile gewinnt. Erkannt werden Komma, Semikolon, Tabulator und Pipe. Die Auto-Erkennung lässt sich jederzeit per Dropdown überschreiben.

Was bedeutet die Option „Deutsche Zahlen umwandeln”?

Deutsche Spreadsheets schreiben Tausender mit Punkt und Dezimalstellen mit Komma — also „1.234,56”. Pandas, R und SQL erwarten Punkt-als-Dezimal — „1234.56”. Diese Option formt jede Zelle, die strikt dem deutschen Muster entspricht, in das maschinenlesbare Format um. Versionsnummern wie „1.234” bleiben unverändert.

Werden meine CSV-Daten auf einen Server hochgeladen?

Nein. Die gesamte Erkennung und Umwandlung läuft in deinem Browser-Tab. Die Datei wird nicht hochgeladen, nicht gespeichert und nicht analysiert.

Welche verwandten Tools gibt es?

Weitere Tools im Daten- und Dokumenten-Cluster:

JSON zu CSV — JSON-Arrays in eine CSV-Tabelle exportieren, mit Dot-Notation für verschachtelte Felder.
CSV zu Markdown — CSV-Tabellen in Markdown-Pipe-Tables umwandeln, ideal für GitHub-READMEs und Dokumentation.
Datei-Hash-Prüfer — SHA-256/512/BLAKE3-Hashes berechnen und gegen Sidecar-Files verifizieren, vollständig im Browser.

CSV-Import bereinigen

So funktioniert es

Datei einlesen

Auto-Erkennung prüfen

Bereinigen & herunterladen

Datenschutz

Wie benutzt du dieses Tool?