¿Mi PDF se sube a un servidor?

No. Todo el parsing y la generación Markdown corren exclusivamente en su pestaña del navegador. No hay endpoint de servidor, ni telemetría, ni subida. Puede comprobarlo usted mismo en la pestaña Red de las herramientas de desarrollador.

¿Qué pasa con las tablas?

Las tablas simples con rejillas claras de filas y columnas salen como tabla pipe GFM. Las tablas complejas con merges, celdas anidadas o etiquetas flotantes se marcan con un bloque indicador (`⚠ Tabla detectada — retoque manual recomendado`). No inventamos estructura pipe que el original no dé.

¿Funciona también con PDF escaneados?

Sí. Si la herramienta no encuentra capa de texto, salta automáticamente a modo OCR y reconoce el texto desde la imagen de página mediante un modelo OCR WebAssembly. La primera página puede tardar unos segundos porque el modelo se carga una sola vez en la caché del navegador — después corre sin conexión.

¿Cómo manejan matemáticas y fórmulas?

Los bloques matemáticos se detectan y se marcan como bloque indicador (`⚠ Área de fórmula detectada`). Una reconstrucción LaTeX 1:1 no es realizable de forma fiable en el navegador — marcamos honestamente, en vez de inventar código falso que tendría que corregir de todos modos.

¿Qué pasa con las imágenes del PDF?

Las imágenes incrustadas se referencian (`![Imagen N](image-N.png)`) y se colocan como archivos separados en el ZIP. Quien necesite solo texto puede desactivar la extracción de imágenes — entonces solo los párrafos Markdown van a la salida.

¿Qué tamaños de PDF son realistas?

Hasta 50 MB por archivo y 50 archivos por ejecución. Los PDF más grandes no se bloquean activamente, pero la RAM del navegador es el límite — escaneos muy largos con OCR pueden alcanzar el límite de memoria en equipos antiguos.

¿Están admitidos los PDF cifrados?

Los PDF cifrados se detectan y se rechazan con un mensaje de error claro — no intentamos saltarnos contraseñas. Si tiene la contraseña, desbloquee primero el archivo con la herramienta [Contraseña PDF](/de/pdf-passwort) y convierta después.

¿Se trasladan las anotaciones y campos de formulario?

No, en esta versión no. La capa de anotaciones y los campos AcroForm quedan fuera — están al margen de la extracción de texto documentada. Si necesita estos contenidos, avísenos, los tomamos en consideración para la fase 2.

PDF a Markdown — convertir localmente en el navegador

¿Por qué PDF a Markdown?

Markdown es el formato lingua-franca para flujos de trabajo de IA, wikis y sistemas de notas personales. Obsidian, Logseq, Hugo, las Content-Collections de Astro, los archivos de Claude Code y casi cualquier índice RAG esperan Markdown — no PDF. Quien quiera depositar una pila de contratos, estudios o whitepapers en una base de conocimiento se encuentra con el mismo problema: el PDF está diseñado para personas, no para máquinas.

Esta herramienta hace transitable el camino inverso. De un PDF surge un archivo .md limpio con estructura reconocible: encabezados como #-headers, listas como bullet-points, párrafos como párrafos. Lo que no es convertible con fiabilidad — tablas complejas, fórmulas matemáticas, maquetaciones multi-columna con marginalia — se marca honestamente como bloque indicador, en vez de reinventarse a medias.

¿Cómo funciona técnicamente la conversión?

Si el PDF tiene una capa de texto incrustada, una biblioteca PDF de código abierto establecida lee el texto con posición y tamaño de fuente. Una heurística de maquetación agrupa bloques de texto en párrafos, estima desde tamaño de fuente y posición el nivel de heading y reconoce marcadores de bullet (•, -, números + punto) como listas. Sale un documento GitHub-Flavored-Markdown que renderiza nativamente en Obsidian, VS Code y cualquier pipeline Markdown estándar.

En PDF escaneados no hay capa de texto — las páginas son imágenes. Aquí la herramienta salta a modo OCR: un modelo OCR WebAssembly contrastado lee el texto desde la imagen, con paquetes de idioma para español, inglés y otras lenguas europeas. El modelo se carga una sola vez en la caché del navegador (~12 MB), después la herramienta funciona también sin conexión.

¿Para qué se usa la herramienta?

Llenar un vault Obsidian. Una pila de papers académicos se vuelve archivos Markdown en los que se pueden poner enlaces y backlinks.
Semilla para Claude Code o wiki de código. Los PDF de arquitectura se convierten en Markdown que vive en archivos .md junto al código.
Preparación de índice RAG. Markdown es sensiblemente más descomponible que PDF — los chunkers trabajan limpios en fronteras de heading.
Importación de bloque Logseq. Los encabezados Markdown se vuelven bloques Logseq.
Migración de contenido Hugo / Astro. Las documentaciones PDF existentes se vuelven sitios estáticos.

¿Qué se conserva — y qué no?

Conservado: encabezados (con jerarquía reconocible), párrafos, listas (ordenadas y no ordenadas), formatos inline como negrita y cursiva, enlaces con texto de anclaje, tablas simples, imágenes como archivos referenciados.

Marcado como bloque indicador, no convertido 1:1: tablas complejas con merges de celdas, fórmulas matemáticas, maquetaciones multi-columna con referencias cruzadas, enlaces de notas a pie. El bloque indicador deja claro dónde la conversión ve su límite — usted decide cómo retocar.

No incluido en esta versión: anotaciones, datos de campos de formulario, archivos incrustados, capas OCG. Están arquitectónicamente por debajo de la extracción de texto y requieren tratamiento aparte — la fase 2 lo recogerá en cuanto el MVP corra estable.

Privacidad — todo se queda en la pestaña del navegador

Muchos servicios PDF-a-Markdown gratuitos suben el archivo a un servidor, convierten allí y devuelven el resultado. El modelo de negocio resulta a menudo cuestionable, porque el servidor ve el contenido — aunque afirme borrarlo tras 24 horas. En contratos confidenciales, informes médicos o PDF de estrategia interna esto rara vez es aceptable.

Aquí nada de eso. El PDF se parsea en su pestaña del navegador, el modelo OCR corre como módulo WebAssembly en la misma pestaña, el Markdown se monta en memoria y se ofrece como descarga. Puede abrir el panel de red de las herramientas de desarrollador y observar: ni un solo byte de su PDF abandona su ordenador.

¿Qué convertidores relacionados existen?

Esta herramienta forma parte de la familia de convertidores Markdown — una colección de convertidores browser-only que preparan formatos de oficina para flujos de IA y wiki:

DOCX a Markdown — documentos Word directamente a Markdown, con estructura de heading y listas.
XLSX a Markdown — tablas Excel y ODS como tablas pipe GFM, multi-hoja.
HTML a Markdown — páginas web o snippets HTML sueltos por archivo o pegado.
Quitar metadatos — EXIF, GPS y XMP eliminados de imágenes y PDF, localmente en el navegador.

PDF a Markdown

Cómo funciona

Elegir el PDF

Comprobar el modo

Descargar el Markdown

Privacidad

¿Cómo usar esta herramienta?