Aller au contenu
Runs local · no upload

PDF en Markdown

Convertit les PDF en Markdown — couche texte directement, pages scannées via OCR. Tout dans l'onglet du navigateur.

Drop PDF here

Or click to select — up to 100 MB

PDF

Comment ça marche

  1. 01

    Choisir le PDF

    Glisser-déposer ou sélecteur. Jusqu'à 50 fichiers par exécution, 50 Mo par fichier. Les PDF chiffrés sont détectés et signalés.

  2. 02

    Vérifier le mode

    Si le PDF a une couche texte, l'extraction directe tourne. Sinon, c'est l'OCR — l'outil l'indique avant la conversion.

  3. 03

    Télécharger le Markdown

    Un fichier → directement `.md`. Plusieurs fichiers → en ZIP, avec images référencées et un rapport de conversion.

Confidentialité

Aucun chemin serveur. Le PDF est parsé dans votre onglet de navigateur et converti en Markdown. Après le premier chargement, l'outil fonctionne aussi hors ligne — pas de tracking, pas d'inscription.

Le PDF est le format standard pour les documents finis — et le pire format si vous voulez transférer le contenu dans Obsidian, un wiki ou un index RAG. Cet outil décompose les PDF en fichiers Markdown propres : les titres deviennent des `#`-headers, les énumérations des listes, les paragraphes des paragraphes.

01 — Mode d’emploi

Comment utiliser cet outil ?

  1. Choisir le PDF par glisser-déposer ou via le sélecteur — jusqu'à 50 Mo par fichier
  2. Vérifier les options — le repli OCR pour pages scannées est actif par défaut
  3. Cliquer sur « Convertir » et télécharger le fichier `.md` — pour plusieurs fichiers, sous forme de ZIP

Pourquoi PDF en Markdown ?

Markdown est le format lingua-franca pour les workflows IA, les wikis et les systèmes de notes personnels. Obsidian, Logseq, Hugo, les Content-Collections Astro, les fichiers Claude Code et quasiment tout index RAG attendent du Markdown — pas du PDF. Qui veut déposer une pile de contrats, d’études ou de whitepapers dans une base de connaissances se heurte au même problème : le PDF est conçu pour les humains, pas pour les machines.

Cet outil rend praticable le chemin inverse. À partir d’un PDF naît un fichier .md propre avec une structure reconnaissable : titres en #-headers, listes en bullet-points, paragraphes en paragraphes. Ce qui n’est pas convertible de manière fiable — tableaux complexes, formules mathématiques, mises en page multi-colonnes avec marginales — est marqué honnêtement comme bloc d’indication, plutôt que réinventé à moitié.

Comment fonctionne techniquement la conversion ?

Si le PDF a une couche texte intégrée, une bibliothèque PDF open source établie lit le texte avec position et taille de police. Une heuristique de mise en page groupe les blocs de texte en paragraphes, estime depuis la taille de police et la position le niveau de heading et reconnaît les marqueurs de bullet (, -, chiffres + point) comme listes. Il en sort un document GitHub-Flavored-Markdown qui rend nativement dans Obsidian, VS Code et toute pipeline Markdown standard.

Pour les PDF scannés, il n’y a pas de couche texte — les pages sont des images. Là, l’outil bascule en mode OCR : un modèle OCR WebAssembly éprouvé lit le texte depuis l’image, avec packs linguistiques pour le français, l’anglais et d’autres langues européennes. Le modèle est chargé une fois dans le cache du navigateur (~12 Mo), ensuite l’outil fonctionne aussi sans connexion Internet.

À quoi sert l’outil ?

  • Remplir un vault Obsidian. Une pile d’articles académiques devient des fichiers Markdown où l’on peut poser liens et backlinks.
  • Seed Claude Code ou wiki de code. Les PDF d’architecture deviennent du Markdown qui vit en .md à côté des fichiers de code.
  • Préparation d’index RAG. Le Markdown est nettement plus décomposable que le PDF — les chunkers travaillent proprement aux frontières de heading.
  • Import bloc Logseq. Les headings Markdown deviennent des blocs Logseq.
  • Migration de contenu Hugo / Astro. Les documentations PDF existantes deviennent des sites statiques.

Qu’est-ce qui est préservé — et qu’est-ce qui ne l’est pas ?

Préservé : titres (avec hiérarchie reconnaissable), paragraphes, listes (ordonnées et non ordonnées), formats inline comme gras et italique, liens avec texte d’ancre, tableaux simples, images en fichiers référencés.

Marqué comme bloc d’indication, pas converti 1:1 : tableaux complexes avec fusions de cellules, formules mathématiques, mises en page multi-colonnes avec renvois, liens de notes de bas de page. Le bloc d’indication montre où la conversion voit sa limite — vous décidez comment retoucher.

Non inclus dans cette version : annotations, données de champs de formulaire, fichiers intégrés, couches OCG. Ils sont architecturalement en dessous de l’extraction de texte et demandent un traitement séparé — la phase 2 rattrapera dès que le MVP tournera stable.

Confidentialité — tout reste dans l’onglet du navigateur

Beaucoup de services PDF-vers-Markdown gratuits téléversent le fichier sur un serveur, convertissent là-bas et renvoient le résultat. Le modèle économique se pose souvent en plus, car le serveur voit le contenu — même s’il prétend le supprimer après 24 heures. Pour des contrats confidentiels, des bilans médicaux ou des PDF de stratégie interne, c’est rarement acceptable.

Ici rien de tout cela. Le PDF est parsé dans votre onglet de navigateur, le modèle OCR tourne comme module WebAssembly dans le même onglet, le Markdown est assemblé en mémoire et proposé en téléchargement. Vous pouvez ouvrir le panneau réseau des outils de développement et observer : pas un seul octet de votre PDF ne quitte votre ordinateur.

Quels convertisseurs apparentés existe-t-il ?

Cet outil fait partie de la famille des convertisseurs Markdown — une collection de convertisseurs browser-only qui préparent les formats Office pour les workflows IA et wiki :

Dernière mise à jour :

Vous pourriez aussi aimer