Zum Inhalt springen
Läuft lokal · kein Upload

PDF zu Markdown

Konvertiert PDFs zu Markdown — Text-Layer direkt, gescannte Seiten via OCR. Alles im Browser-Tab.

PDF hier ablegen

Oder klicken zum Auswählen — bis 100 MB

PDF

So funktioniert es

  1. 01

    PDF wählen

    Drag & Drop oder Datei-Browser. Bis zu 50 Dateien pro Durchlauf, 50 MB pro Datei. Verschlüsselte PDFs werden erkannt und gemeldet.

  2. 02

    Modus prüfen

    Hat die PDF einen Text-Layer, läuft die direkte Extraktion. Sonst greift OCR — das Tool zeigt es vor der Konvertierung an.

  3. 03

    Markdown laden

    Eine Datei → direkt `.md`. Mehrere Dateien → als ZIP, mit referenzierten Bildern und einem Conversion-Report.

Datenschutz

Es gibt keinen Server-Pfad. Die PDF wird in deinem Browser-Tab geparst und in Markdown umgewandelt. Nach dem ersten Laden funktioniert das Tool auch offline — kein Tracking, keine Anmeldung.

PDFs sind das Standardformat für fertige Dokumente — und das schlechteste Format, wenn du den Inhalt in Obsidian, ein Wiki oder einen RAG-Index überführen willst. Dieses Tool zerlegt PDFs in saubere Markdown-Dateien: Überschriften werden als `#`-Header erkannt, Aufzählungen als Listen, Absätze als Absätze. Bei gescannten Seiten greift ein OCR-Fallback, der den Text aus dem Bild herausliest. Alles läuft in deinem Browser-Tab — die PDF verlässt deinen Rechner nicht.

01 — Anleitung

Wie benutzt du dieses Tool?

  1. PDF per Drag & Drop oder über den Datei-Browser auswählen — bis zu 50 MB pro Datei
  2. Optionen prüfen — OCR-Fallback für gescannte Seiten ist standardmäßig aktiv
  3. „Konvertieren“ klicken und die `.md`-Datei laden — bei mehreren Dateien als ZIP

Warum PDF zu Markdown?

Markdown ist das Lingua-Franca-Format für AI-Workflows, Wikis und persönliche Notiz-Systeme. Obsidian, Logseq, Hugo, Astro-Content-Collections, Claude-Code-Dateien und nahezu jeder RAG-Index erwarten Markdown — keine PDFs. Wer einen Stapel Verträge, Studien oder Whitepaper in einer Wissensbasis ablegen will, steht vor dem gleichen Problem: PDFs sind für Menschen designt, nicht für Maschinen.

Dieses Tool macht den umgekehrten Weg gangbar. Aus einer PDF entsteht eine saubere .md-Datei mit erkennbarer Struktur: Überschriften als #-Header, Listen als Bullet-Points, Absätze als Absätze. Was nicht zuverlässig konvertierbar ist — komplexe Tabellen, mathematische Formeln, Spalten-Layouts mit Marginalien — wird ehrlich als Hinweis-Block markiert, statt halbgar neu erfunden.

Wie funktioniert die Konvertierung technisch?

Hat die PDF einen eingebetteten Text-Layer, liest eine etablierte Open-Source-PDF-Bibliothek den Text samt Position und Schriftgröße aus. Eine Layout-Heuristik gruppiert Textblöcke zu Absätzen, schätzt aus Schriftgröße und Position die Heading-Ebene und erkennt Bullet-Marker (, -, Zahlen + Punkt) als Listen. Heraus kommt ein GitHub-Flavored-Markdown- Dokument, das in Obsidian, VS Code und jeder Standard-Markdown-Pipeline nativ rendert.

Bei gescannten PDFs gibt es keinen Text-Layer — die Seiten sind Bilder. Hier schaltet das Tool in den OCR-Modus: Ein bewährtes WebAssembly-OCR-Modell liest den Text aus dem Bild heraus, mit Sprachpaketen für Deutsch, Englisch und weitere europäische Sprachen. Das Modell wird einmalig in den Browser- Cache geladen (~12 MB), danach funktioniert das Tool auch ohne Internetverbindung weiter.

Wofür wird das Tool genutzt?

  • Obsidian-Vault befüllen. Ein Stapel akademischer Papers wird zu Markdown-Dateien, in denen sich Verlinkungen und Backlinks setzen lassen.
  • Claude-Code- oder Coding-Wiki-Seed. Architektur-PDFs werden zu Markdown, das in .md-Dateien neben den Code-Files lebt.
  • RAG-Index-Vorbereitung. Markdown ist deutlich besser zerlegbar als PDF — Chunker arbeiten an Heading-Grenzen sauber.
  • Logseq-Block-Import. Markdown-Headings werden zu Logseq-Blocks.
  • Hugo / Astro Content-Migration. Bestehende PDF-Dokumentationen werden zu statischen Sites.

Was bleibt erhalten — und was nicht?

Erhalten: Überschriften (mit erkennbarer Hierarchie), Absätze, Listen (geordnet und ungeordnet), Inline-Formatierungen wie Fett und kursiv, Links mit Anker-Text, einfache Tabellen, Bilder als referenzierte Dateien.

Markiert als Hint-Block, nicht 1:1 konvertiert: komplexe Tabellen mit Zellen-Merges, mathematische Formeln, Spalten-Layouts mit Querverweisen, Fußnoten-Verlinkungen. Der Hint-Block macht klar, wo die Konvertierung ihre Grenze sieht — du entscheidest, wie du nachbearbeitest.

Nicht enthalten in dieser Version: Annotationen, Formularfeld-Daten, eingebettete Dateien, OCG-Layer. Diese liegen architektonisch unterhalb der Text-Extraktion und brauchen separate Behandlung — Phase 2 wird hier nachziehen, sobald das MVP stabil läuft.

Datenschutz — alles bleibt im Browser-Tab

Viele kostenlose PDF-zu-Markdown-Dienste laden die Datei auf einen Server hoch, konvertieren dort und schicken das Ergebnis zurück. Das Geschäftsmodell fragt sich oft mit, denn der Server sieht den Inhalt — auch wenn er behauptet, ihn nach 24 Stunden zu löschen. Bei vertraulichen Verträgen, medizinischen Befunden oder internen Strategie-PDFs ist das selten akzeptabel.

Hier passiert nichts davon. Die PDF wird in deinem Browser-Tab geparst, das OCR-Modell läuft als WebAssembly-Modul im selben Tab, das Markdown wird im Speicher zusammengebaut und als Download angeboten. Du kannst das Netzwerk-Panel der Entwicklerwerkzeuge öffnen und beobachten: kein einziger Byte deiner PDF verlässt deinen Rechner.

Welche verwandten Konverter gibt es?

Dieses Tool ist Teil der Markdown-Konverter-Familie — eine Sammlung browser-only Konverter, die Office-Formate für AI- und Wiki-Workflows aufbereiten:

  • DOCX zu Markdown — Word-Dokumente direkt zu Markdown, mit Heading-Struktur und Listen.
  • XLSX zu Markdown — Excel- und ODS-Tabellen als GFM-Pipe-Tabellen, multi-sheet-fähig.
  • HTML zu Markdown — Webseiten oder einzelne HTML-Snippets per Datei oder Paste.
  • Metadaten entfernen — EXIF, GPS und XMP aus Bildern und PDFs strippen, lokal im Browser.

Zuletzt aktualisiert:

Das könnte dir auch gefallen