Comment utiliser cet outil ?
- Choisir le PDF par glisser-déposer ou via le sélecteur — jusqu'à 50 Mo par fichier
- Vérifier les options — le repli OCR pour pages scannées est actif par défaut
- Cliquer sur « Convertir » et télécharger le fichier `.md` — pour plusieurs fichiers, sous forme de ZIP
Pourquoi PDF en Markdown ?
Markdown est le format lingua-franca pour les workflows IA, les wikis et les systèmes de notes personnels. Obsidian, Logseq, Hugo, les Content-Collections Astro, les fichiers Claude Code et quasiment tout index RAG attendent du Markdown — pas du PDF. Qui veut déposer une pile de contrats, d’études ou de whitepapers dans une base de connaissances se heurte au même problème : le PDF est conçu pour les humains, pas pour les machines.
Cet outil rend praticable le chemin inverse. À partir d’un PDF naît un fichier
.md propre avec une structure reconnaissable : titres en #-headers, listes
en bullet-points, paragraphes en paragraphes. Ce qui n’est pas convertible de
manière fiable — tableaux complexes, formules mathématiques, mises en page
multi-colonnes avec marginales — est marqué honnêtement comme bloc d’indication,
plutôt que réinventé à moitié.
Comment fonctionne techniquement la conversion ?
Si le PDF a une couche texte intégrée, une bibliothèque PDF open source
établie lit le texte avec position et taille de police. Une heuristique de
mise en page groupe les blocs de texte en paragraphes, estime depuis la
taille de police et la position le niveau de heading et reconnaît les
marqueurs de bullet (•, -, chiffres + point) comme listes. Il en sort un
document
GitHub-Flavored-Markdown
qui rend nativement dans Obsidian, VS Code et toute pipeline Markdown
standard.
Pour les PDF scannés, il n’y a pas de couche texte — les pages sont des images. Là, l’outil bascule en mode OCR : un modèle OCR WebAssembly éprouvé lit le texte depuis l’image, avec packs linguistiques pour le français, l’anglais et d’autres langues européennes. Le modèle est chargé une fois dans le cache du navigateur (~12 Mo), ensuite l’outil fonctionne aussi sans connexion Internet.
À quoi sert l’outil ?
- Remplir un vault Obsidian. Une pile d’articles académiques devient des fichiers Markdown où l’on peut poser liens et backlinks.
- Seed Claude Code ou wiki de code. Les PDF d’architecture deviennent du
Markdown qui vit en
.mdà côté des fichiers de code. - Préparation d’index RAG. Le Markdown est nettement plus décomposable que le PDF — les chunkers travaillent proprement aux frontières de heading.
- Import bloc Logseq. Les headings Markdown deviennent des blocs Logseq.
- Migration de contenu Hugo / Astro. Les documentations PDF existantes deviennent des sites statiques.
Qu’est-ce qui est préservé — et qu’est-ce qui ne l’est pas ?
Préservé : titres (avec hiérarchie reconnaissable), paragraphes, listes (ordonnées et non ordonnées), formats inline comme gras et italique, liens avec texte d’ancre, tableaux simples, images en fichiers référencés.
Marqué comme bloc d’indication, pas converti 1:1 : tableaux complexes avec fusions de cellules, formules mathématiques, mises en page multi-colonnes avec renvois, liens de notes de bas de page. Le bloc d’indication montre où la conversion voit sa limite — vous décidez comment retoucher.
Non inclus dans cette version : annotations, données de champs de formulaire, fichiers intégrés, couches OCG. Ils sont architecturalement en dessous de l’extraction de texte et demandent un traitement séparé — la phase 2 rattrapera dès que le MVP tournera stable.
Confidentialité — tout reste dans l’onglet du navigateur
Beaucoup de services PDF-vers-Markdown gratuits téléversent le fichier sur un serveur, convertissent là-bas et renvoient le résultat. Le modèle économique se pose souvent en plus, car le serveur voit le contenu — même s’il prétend le supprimer après 24 heures. Pour des contrats confidentiels, des bilans médicaux ou des PDF de stratégie interne, c’est rarement acceptable.
Ici rien de tout cela. Le PDF est parsé dans votre onglet de navigateur, le modèle OCR tourne comme module WebAssembly dans le même onglet, le Markdown est assemblé en mémoire et proposé en téléchargement. Vous pouvez ouvrir le panneau réseau des outils de développement et observer : pas un seul octet de votre PDF ne quitte votre ordinateur.
Quels convertisseurs apparentés existe-t-il ?
Cet outil fait partie de la famille des convertisseurs Markdown — une collection de convertisseurs browser-only qui préparent les formats Office pour les workflows IA et wiki :
- DOCX en Markdown — documents Word directement en Markdown, avec structure de heading et listes.
- XLSX en Markdown — tableaux Excel et ODS en tables pipe GFM, multi-feuille.
- HTML en Markdown — pages web ou snippets HTML isolés par fichier ou collage.
- Supprimer les métadonnées — EXIF, GPS et XMP retirés d’images et PDF, en local dans le navigateur.
Dernière mise à jour :