Mon PDF est-il téléversé sur un serveur ?

Non. L'intégralité du parsing et la génération Markdown tournent exclusivement dans votre onglet de navigateur. Aucun endpoint serveur, aucune télémétrie, aucun téléversement. Vous pouvez le vérifier vous-même dans l'onglet réseau des outils de développement.

Que se passe-t-il avec les tableaux ?

Les tableaux simples avec grilles claires de lignes et colonnes sortent en table pipe GFM. Les tableaux complexes avec fusions, cellules imbriquées ou légendes flottantes sont marqués par un bloc indication (`⚠ Tableau détecté — retouche manuelle conseillée`). Nous n'inventons pas de structure pipe que l'original ne fournit pas.

Cela fonctionne-t-il aussi pour les PDF scannés ?

Oui. Si l'outil ne trouve pas de couche texte, il bascule automatiquement en mode OCR et reconnaît le texte depuis l'image de page via un modèle OCR WebAssembly. La première page peut prendre quelques secondes parce que le modèle est chargé une fois dans le cache du navigateur — après, il tourne hors ligne.

Comment gérez-vous les maths et formules ?

Les blocs maths sont détectés et marqués par un bloc indication (`⚠ Zone de formule détectée`). Une reconstruction LaTeX 1:1 n'est pas réalisable de manière fiable dans le navigateur — nous marquons honnêtement, plutôt qu'inventer du code faux que vous devriez de toute façon corriger.

Que se passe-t-il avec les images du PDF ?

Les images intégrées sont référencées (`![Image N](image-N.png)`) et placées comme fichiers séparés dans le ZIP. Qui veut du texte pur peut désactiver l'extraction d'images — seuls les paragraphes Markdown atterrissent alors dans la sortie.

Quelles tailles de PDF sont réalistes ?

Jusqu'à 50 Mo par fichier et 50 fichiers par exécution. Les PDF plus gros ne sont pas activement bloqués, mais la RAM du navigateur est la limite — les très longs scans avec OCR peuvent atteindre la limite mémoire sur les appareils anciens.

Les PDF chiffrés sont-ils pris en charge ?

Les PDF chiffrés sont détectés et écartés avec un message d'erreur clair — nous n'essayons pas de contourner les mots de passe. Si vous avez le mot de passe, déverrouillez d'abord le fichier avec l'outil [Mot de passe PDF](/de/pdf-passwort) puis convertissez.

Les annotations et champs de formulaire sont-ils repris ?

Non, pas dans cette version. La couche d'annotations et les champs AcroForm restent à l'écart — ils se situent en dehors de l'extraction de texte documentée. Si vous avez besoin de ces contenus, faites-nous signe, nous le mettrons en visu pour la phase 2.

PDF en Markdown — convertir localement dans le navigateur

Pourquoi PDF en Markdown ?

Markdown est le format lingua-franca pour les workflows IA, les wikis et les systèmes de notes personnels. Obsidian, Logseq, Hugo, les Content-Collections Astro, les fichiers Claude Code et quasiment tout index RAG attendent du Markdown — pas du PDF. Qui veut déposer une pile de contrats, d’études ou de whitepapers dans une base de connaissances se heurte au même problème : le PDF est conçu pour les humains, pas pour les machines.

Cet outil rend praticable le chemin inverse. À partir d’un PDF naît un fichier .md propre avec une structure reconnaissable : titres en #-headers, listes en bullet-points, paragraphes en paragraphes. Ce qui n’est pas convertible de manière fiable — tableaux complexes, formules mathématiques, mises en page multi-colonnes avec marginales — est marqué honnêtement comme bloc d’indication, plutôt que réinventé à moitié.

Comment fonctionne techniquement la conversion ?

Si le PDF a une couche texte intégrée, une bibliothèque PDF open source établie lit le texte avec position et taille de police. Une heuristique de mise en page groupe les blocs de texte en paragraphes, estime depuis la taille de police et la position le niveau de heading et reconnaît les marqueurs de bullet (•, -, chiffres + point) comme listes. Il en sort un document GitHub-Flavored-Markdown qui rend nativement dans Obsidian, VS Code et toute pipeline Markdown standard.

Pour les PDF scannés, il n’y a pas de couche texte — les pages sont des images. Là, l’outil bascule en mode OCR : un modèle OCR WebAssembly éprouvé lit le texte depuis l’image, avec packs linguistiques pour le français, l’anglais et d’autres langues européennes. Le modèle est chargé une fois dans le cache du navigateur (~12 Mo), ensuite l’outil fonctionne aussi sans connexion Internet.

À quoi sert l’outil ?

Remplir un vault Obsidian. Une pile d’articles académiques devient des fichiers Markdown où l’on peut poser liens et backlinks.
Seed Claude Code ou wiki de code. Les PDF d’architecture deviennent du Markdown qui vit en .md à côté des fichiers de code.
Préparation d’index RAG. Le Markdown est nettement plus décomposable que le PDF — les chunkers travaillent proprement aux frontières de heading.
Import bloc Logseq. Les headings Markdown deviennent des blocs Logseq.
Migration de contenu Hugo / Astro. Les documentations PDF existantes deviennent des sites statiques.

Qu’est-ce qui est préservé — et qu’est-ce qui ne l’est pas ?

Préservé : titres (avec hiérarchie reconnaissable), paragraphes, listes (ordonnées et non ordonnées), formats inline comme gras et italique, liens avec texte d’ancre, tableaux simples, images en fichiers référencés.

Marqué comme bloc d’indication, pas converti 1:1 : tableaux complexes avec fusions de cellules, formules mathématiques, mises en page multi-colonnes avec renvois, liens de notes de bas de page. Le bloc d’indication montre où la conversion voit sa limite — vous décidez comment retoucher.

Non inclus dans cette version : annotations, données de champs de formulaire, fichiers intégrés, couches OCG. Ils sont architecturalement en dessous de l’extraction de texte et demandent un traitement séparé — la phase 2 rattrapera dès que le MVP tournera stable.

Confidentialité — tout reste dans l’onglet du navigateur

Beaucoup de services PDF-vers-Markdown gratuits téléversent le fichier sur un serveur, convertissent là-bas et renvoient le résultat. Le modèle économique se pose souvent en plus, car le serveur voit le contenu — même s’il prétend le supprimer après 24 heures. Pour des contrats confidentiels, des bilans médicaux ou des PDF de stratégie interne, c’est rarement acceptable.

Ici rien de tout cela. Le PDF est parsé dans votre onglet de navigateur, le modèle OCR tourne comme module WebAssembly dans le même onglet, le Markdown est assemblé en mémoire et proposé en téléchargement. Vous pouvez ouvrir le panneau réseau des outils de développement et observer : pas un seul octet de votre PDF ne quitte votre ordinateur.

Quels convertisseurs apparentés existe-t-il ?

Cet outil fait partie de la famille des convertisseurs Markdown — une collection de convertisseurs browser-only qui préparent les formats Office pour les workflows IA et wiki :

DOCX en Markdown — documents Word directement en Markdown, avec structure de heading et listes.
XLSX en Markdown — tableaux Excel et ODS en tables pipe GFM, multi-feuille.
HTML en Markdown — pages web ou snippets HTML isolés par fichier ou collage.
Supprimer les métadonnées — EXIF, GPS et XMP retirés d’images et PDF, en local dans le navigateur.

PDF en Markdown

Comment ça marche

Choisir le PDF

Vérifier le mode

Télécharger le Markdown

Confidentialité

Comment utiliser cet outil ?