¿Cómo usar esta herramienta?
- Elegir el PDF por arrastrar y soltar o con el selector — hasta 50 MB por archivo
- Comprobar opciones — el respaldo OCR para páginas escaneadas está activo por defecto
- Pulsar «Convertir» y descargar el archivo `.md` — con varios archivos, como ZIP
¿Por qué PDF a Markdown?
Markdown es el formato lingua-franca para flujos de trabajo de IA, wikis y sistemas de notas personales. Obsidian, Logseq, Hugo, las Content-Collections de Astro, los archivos de Claude Code y casi cualquier índice RAG esperan Markdown — no PDF. Quien quiera depositar una pila de contratos, estudios o whitepapers en una base de conocimiento se encuentra con el mismo problema: el PDF está diseñado para personas, no para máquinas.
Esta herramienta hace transitable el camino inverso. De un PDF surge un
archivo .md limpio con estructura reconocible: encabezados como #-headers,
listas como bullet-points, párrafos como párrafos. Lo que no es convertible
con fiabilidad — tablas complejas, fórmulas matemáticas, maquetaciones
multi-columna con marginalia — se marca honestamente como bloque indicador,
en vez de reinventarse a medias.
¿Cómo funciona técnicamente la conversión?
Si el PDF tiene una capa de texto incrustada, una biblioteca PDF de código
abierto establecida lee el texto con posición y tamaño de fuente. Una
heurística de maquetación agrupa bloques de texto en párrafos, estima desde
tamaño de fuente y posición el nivel de heading y reconoce marcadores de
bullet (•, -, números + punto) como listas. Sale un documento
GitHub-Flavored-Markdown
que renderiza nativamente en Obsidian, VS Code y cualquier pipeline
Markdown estándar.
En PDF escaneados no hay capa de texto — las páginas son imágenes. Aquí la herramienta salta a modo OCR: un modelo OCR WebAssembly contrastado lee el texto desde la imagen, con paquetes de idioma para español, inglés y otras lenguas europeas. El modelo se carga una sola vez en la caché del navegador (~12 MB), después la herramienta funciona también sin conexión.
¿Para qué se usa la herramienta?
- Llenar un vault Obsidian. Una pila de papers académicos se vuelve archivos Markdown en los que se pueden poner enlaces y backlinks.
- Semilla para Claude Code o wiki de código. Los PDF de arquitectura
se convierten en Markdown que vive en archivos
.mdjunto al código. - Preparación de índice RAG. Markdown es sensiblemente más descomponible que PDF — los chunkers trabajan limpios en fronteras de heading.
- Importación de bloque Logseq. Los encabezados Markdown se vuelven bloques Logseq.
- Migración de contenido Hugo / Astro. Las documentaciones PDF existentes se vuelven sitios estáticos.
¿Qué se conserva — y qué no?
Conservado: encabezados (con jerarquía reconocible), párrafos, listas (ordenadas y no ordenadas), formatos inline como negrita y cursiva, enlaces con texto de anclaje, tablas simples, imágenes como archivos referenciados.
Marcado como bloque indicador, no convertido 1:1: tablas complejas con merges de celdas, fórmulas matemáticas, maquetaciones multi-columna con referencias cruzadas, enlaces de notas a pie. El bloque indicador deja claro dónde la conversión ve su límite — usted decide cómo retocar.
No incluido en esta versión: anotaciones, datos de campos de formulario, archivos incrustados, capas OCG. Están arquitectónicamente por debajo de la extracción de texto y requieren tratamiento aparte — la fase 2 lo recogerá en cuanto el MVP corra estable.
Privacidad — todo se queda en la pestaña del navegador
Muchos servicios PDF-a-Markdown gratuitos suben el archivo a un servidor, convierten allí y devuelven el resultado. El modelo de negocio resulta a menudo cuestionable, porque el servidor ve el contenido — aunque afirme borrarlo tras 24 horas. En contratos confidenciales, informes médicos o PDF de estrategia interna esto rara vez es aceptable.
Aquí nada de eso. El PDF se parsea en su pestaña del navegador, el modelo OCR corre como módulo WebAssembly en la misma pestaña, el Markdown se monta en memoria y se ofrece como descarga. Puede abrir el panel de red de las herramientas de desarrollador y observar: ni un solo byte de su PDF abandona su ordenador.
¿Qué convertidores relacionados existen?
Esta herramienta forma parte de la familia de convertidores Markdown — una colección de convertidores browser-only que preparan formatos de oficina para flujos de IA y wiki:
- DOCX a Markdown — documentos Word directamente a Markdown, con estructura de heading y listas.
- XLSX a Markdown — tablas Excel y ODS como tablas pipe GFM, multi-hoja.
- HTML a Markdown — páginas web o snippets HTML sueltos por archivo o pegado.
- Quitar metadatos — EXIF, GPS y XMP eliminados de imágenes y PDF, localmente en el navegador.
Última actualización: