Wie benutzt du dieses Tool?
- PDF per Drag & Drop oder über den Datei-Browser auswählen — bis zu 50 MB pro Datei
- Optionen prüfen — OCR-Fallback für gescannte Seiten ist standardmäßig aktiv
- „Konvertieren“ klicken und die `.md`-Datei laden — bei mehreren Dateien als ZIP
Warum PDF zu Markdown?
Markdown ist das Lingua-Franca-Format für AI-Workflows, Wikis und persönliche Notiz-Systeme. Obsidian, Logseq, Hugo, Astro-Content-Collections, Claude-Code-Dateien und nahezu jeder RAG-Index erwarten Markdown — keine PDFs. Wer einen Stapel Verträge, Studien oder Whitepaper in einer Wissensbasis ablegen will, steht vor dem gleichen Problem: PDFs sind für Menschen designt, nicht für Maschinen.
Dieses Tool macht den umgekehrten Weg gangbar. Aus einer PDF entsteht eine
saubere .md-Datei mit erkennbarer Struktur: Überschriften als #-Header,
Listen als Bullet-Points, Absätze als Absätze. Was nicht zuverlässig
konvertierbar ist — komplexe Tabellen, mathematische Formeln, Spalten-Layouts
mit Marginalien — wird ehrlich als Hinweis-Block markiert, statt halbgar
neu erfunden.
Wie funktioniert die Konvertierung technisch?
Hat die PDF einen eingebetteten Text-Layer, liest eine etablierte
Open-Source-PDF-Bibliothek den Text samt Position und Schriftgröße aus.
Eine Layout-Heuristik gruppiert Textblöcke zu Absätzen, schätzt aus
Schriftgröße und Position die Heading-Ebene und erkennt Bullet-Marker
(•, -, Zahlen + Punkt) als Listen. Heraus kommt ein
GitHub-Flavored-Markdown-
Dokument, das in Obsidian, VS Code und jeder Standard-Markdown-Pipeline
nativ rendert.
Bei gescannten PDFs gibt es keinen Text-Layer — die Seiten sind Bilder. Hier schaltet das Tool in den OCR-Modus: Ein bewährtes WebAssembly-OCR-Modell liest den Text aus dem Bild heraus, mit Sprachpaketen für Deutsch, Englisch und weitere europäische Sprachen. Das Modell wird einmalig in den Browser- Cache geladen (~12 MB), danach funktioniert das Tool auch ohne Internetverbindung weiter.
Wofür wird das Tool genutzt?
- Obsidian-Vault befüllen. Ein Stapel akademischer Papers wird zu Markdown-Dateien, in denen sich Verlinkungen und Backlinks setzen lassen.
- Claude-Code- oder Coding-Wiki-Seed. Architektur-PDFs werden zu
Markdown, das in
.md-Dateien neben den Code-Files lebt. - RAG-Index-Vorbereitung. Markdown ist deutlich besser zerlegbar als PDF — Chunker arbeiten an Heading-Grenzen sauber.
- Logseq-Block-Import. Markdown-Headings werden zu Logseq-Blocks.
- Hugo / Astro Content-Migration. Bestehende PDF-Dokumentationen werden zu statischen Sites.
Was bleibt erhalten — und was nicht?
Erhalten: Überschriften (mit erkennbarer Hierarchie), Absätze, Listen (geordnet und ungeordnet), Inline-Formatierungen wie Fett und kursiv, Links mit Anker-Text, einfache Tabellen, Bilder als referenzierte Dateien.
Markiert als Hint-Block, nicht 1:1 konvertiert: komplexe Tabellen mit Zellen-Merges, mathematische Formeln, Spalten-Layouts mit Querverweisen, Fußnoten-Verlinkungen. Der Hint-Block macht klar, wo die Konvertierung ihre Grenze sieht — du entscheidest, wie du nachbearbeitest.
Nicht enthalten in dieser Version: Annotationen, Formularfeld-Daten, eingebettete Dateien, OCG-Layer. Diese liegen architektonisch unterhalb der Text-Extraktion und brauchen separate Behandlung — Phase 2 wird hier nachziehen, sobald das MVP stabil läuft.
Datenschutz — alles bleibt im Browser-Tab
Viele kostenlose PDF-zu-Markdown-Dienste laden die Datei auf einen Server hoch, konvertieren dort und schicken das Ergebnis zurück. Das Geschäftsmodell fragt sich oft mit, denn der Server sieht den Inhalt — auch wenn er behauptet, ihn nach 24 Stunden zu löschen. Bei vertraulichen Verträgen, medizinischen Befunden oder internen Strategie-PDFs ist das selten akzeptabel.
Hier passiert nichts davon. Die PDF wird in deinem Browser-Tab geparst, das OCR-Modell läuft als WebAssembly-Modul im selben Tab, das Markdown wird im Speicher zusammengebaut und als Download angeboten. Du kannst das Netzwerk-Panel der Entwicklerwerkzeuge öffnen und beobachten: kein einziger Byte deiner PDF verlässt deinen Rechner.
Welche verwandten Konverter gibt es?
Dieses Tool ist Teil der Markdown-Konverter-Familie — eine Sammlung browser-only Konverter, die Office-Formate für AI- und Wiki-Workflows aufbereiten:
- DOCX zu Markdown — Word-Dokumente direkt zu Markdown, mit Heading-Struktur und Listen.
- XLSX zu Markdown — Excel- und ODS-Tabellen als GFM-Pipe-Tabellen, multi-sheet-fähig.
- HTML zu Markdown — Webseiten oder einzelne HTML-Snippets per Datei oder Paste.
- Metadaten entfernen — EXIF, GPS und XMP aus Bildern und PDFs strippen, lokal im Browser.
Zuletzt aktualisiert: