¿Cómo usar esta herramienta?
- Arrastre el archivo CSV a la zona de subida o selecciónelo — hasta 50 MB se procesan directamente
- El juego de caracteres y el separador se detectan automáticamente y se muestran — modificables manualmente si hace falta
- Active o desactive las opciones de limpieza y compruebe la vista previa antes/después
- Elija el formato — CSV con BOM (compatible Excel), CSV sin BOM o tabla Excel (.xlsx) — y descargue
¿Qué hace exactamente esta herramienta?
La herramienta toma un archivo CSV y ejecuta cuatro pasos que casi siempre son necesarios en exports de hojas de cálculo en español:
- Detectar el juego de caracteres. A partir de los primeros bytes se determina si el archivo está en UTF-8, Latin-1 o Windows-1252. Un Byte-Order-Mark (BOM) presente se respeta; si no, una heurística usa los caracteres especiales típicos (€, «», smart quotes, ñ, tildes) para la desambiguación.
- Detectar el separador. A partir de las diez primeras líneas se identifica el separador de columna más coherente — coma, punto y coma, tabulación o pipe. Las comillas se respetan en el conteo, para que las comas embebidas en campos quoted no falseen el resultado.
- Limpiar los datos. Las líneas vacías se eliminan, los nombres de columna duplicados reciben sufijos contador (
_2,_3), y los formatos numéricos europeos como1.234,56se convierten al1234.56legible por máquina — esto último opcionalmente, con una heurística conservadora (los números de versión como1.234quedan intactos). - Generar la salida. Tres formatos a elegir: CSV con BOM UTF-8 (compatible Excel con doble clic), CSV sin BOM (para Pandas, SQL, R) o una tabla Excel real (.xlsx) con tipado de números.
Todos los pasos se ejecutan íntegramente en la pestaña del navegador. El código no carga scripts externos en runtime, no envía telemetría y no deja nada en el almacenamiento del navegador.
Detección de codificación — ¿cómo funciona técnicamente?
Un archivo CSV no contiene metadatos sobre su juego de caracteres. Quien lo abre tiene que adivinar — y UTF-8 mal adivinado es exactamente la razón por la que «España» se vuelve de pronto «EspaÃ``±a».
La detección se desarrolla en tres etapas:
1. Sonda BOM. Si el archivo empieza con los bytes EF BB BF, es seguramente UTF-8 con Byte-Order-Mark — no hace falta más análisis.
2. Validación UTF-8 estricta. El decodificador intenta interpretar los bytes completos como UTF-8. Si falla (secuencia multi-byte inválida), no puede ser UTF-8. Si lo logra, se asume UTF-8 — para archivos ASCII puros, eso siempre vale, porque ASCII es un subconjunto de UTF-8.
3. Heurística CP1252 vs Latin-1. Si UTF-8 falla, la herramienta examina el rango de bytes 0x80–0x9F. Precisamente en ese rango difieren ambos codepages: Latin-1 deja esos bytes vacíos, Windows-1252 los ocupa con el símbolo del euro, las comillas tipográficas, los em-dash y en-dash. Si esos bytes diagnósticos aparecen, se elige CP1252 — si no, Latin-1.
Esas tres etapas cubren más del 99 % de los exports de hojas de cálculo en español, sin necesidad de cargar una biblioteca externa.
Detección de separador — ¿cuándo se apoya Excel en punto y coma?
Las versiones Excel en español exportan los CSV por defecto con punto y coma, porque la coma en España está reservada como separador decimal. Excel US exporta con coma. Quien abre un CSV US en Excel ES (o al revés) obtiene una única megacolumna, porque Excel espera el separador equivocado.
La detección compara en las diez primeras líneas la frecuencia de cuatro candidatos — coma, punto y coma, tabulación, pipe. Se evalúa:
- Mediana por línea. Un separador que aparece tres veces en cada línea es más probable que uno que aparece a veces siete y a veces ninguna.
- Coherencia. ¿En cuántas de las líneas muestreadas aparece el separador en general? Un ganador debe aparecer en la mayoría de las líneas.
- Quote-awareness. Las comas dentro de
"… , …"no cuentan — forman parte del contenido, no del separador.
En caso de ambigüedad, gana la coma como default RFC 4180. Una sobrescritura manual está disponible en todo momento.
¿Qué problemas CSV aparecen con más frecuencia en datos en español?
Estos cinco tipos de problemas los encuentran analistas de datos y contables casi a diario — y precisamente para eso está construida la herramienta:
Problema 1: Las tildes y la ñ se vuelven mojibake. Síntoma: «cumpleaños» se convierte en «cumpleaÃ``±os». Causa: el archivo está codificado en Latin-1 o CP1252, el lector lo interpreta como UTF-8. Solución: la detección automática de codificación cambia al decodificador correcto, la herramienta restituye el archivo como UTF-8 limpio.
Problema 2: Todas las columnas en una celda. Síntoma: al abrir en Excel, toda la fila aterriza en la columna A. Causa: el CSV usa coma, el locale de Excel espera punto y coma (o al revés). Solución: la detección de separador reconoce el separador real independientemente del locale, la salida puede cambiarse al separador destino deseado.
Problema 3: Power BI / Pandas / SQL no reconocen los números. Síntoma: importes como «1.234,56» se importan como texto en lugar de número, las agregaciones no funcionan. Causa: las herramientas fuera del ámbito europeo solo entienden el punto como decimal. Solución: la opción de normalización de números transforma las celdas al formato máquina 1234.56, seguro y reversible — los números de versión e IDs quedan intactos.
Problema 4: Nombres de columna duplicados. Síntoma: Pandas lee el archivo, pero la segunda columna «Fecha» se ignora en silencio. Causa: muchas bibliotecas DataFrame no permiten cabeceras duplicadas. Solución: las cabeceras duplicadas reciben un sufijo _2/_3, las cabeceras vacías pasan a ser column_N. Nombres de columna únicos garantizados.
Problema 5: Líneas vacías de export de Excel. Síntoma: las herramientas estadísticas lanzan errores en líneas vacías, Pandas genera series NaN. Causa: Excel exporta a menudo con una línea vacía al final o entre secciones. Solución: las líneas totalmente vacías se eliminan sin que se pierdan celdas con contenido.
Protección de datos — 100 % en el navegador
Las ofertas de la competencia para limpiar CSV — sean conversores web como Convertio, OnlineConvertFree, CSVtoTable o Browserling — cargan el archivo en un servidor para procesarlo. La mayoría de esos servicios lo mencionan en los términos; algunos guardan el archivo «hasta dos horas para procesamiento», otros más tiempo.
Para datos CSV es un riesgo mayor que para imágenes: un archivo de tabla contiene a menudo nombres en claro, direcciones, asientos contables, datos bancarios o IDs de empleados. Una subida al servidor de tales datos es conforme al RGPD solo con contrato de encargado del tratamiento — que los escasos proveedores free-tier no firman.
Esta herramienta hace estructuralmente imposible la subida al servidor: el procesado se ejecuta exclusivamente en la pestaña del navegador, entregado vía hosting estático. No hay endpoint backend que pueda aceptar contenido de archivo. Incluso la salida Excel opcional se ensambla por completo en el navegador — sin llamadas externas al servidor.
¿Qué formatos CSV se admiten?
Entradas aceptadas:
- CSV estándar con coma, punto y coma, tabulación o pipe como separador
- TSV (Tab-Separated-Values,
.tsv/.tab) - Tablas plaintext (
.txt) con separador de columna reconocible - UTF-8 (con o sin BOM), Latin-1 (ISO-8859-1), Windows-1252
- Campos quoted según RFC 4180 con comillas dobles como escape
- Finales de línea arbitrarios (
\n,\r\n,\r)
Salidas aceptadas:
- CSV con BOM UTF-8 — se abre correctamente en Excel con doble clic
- CSV sin BOM — encaja para Pandas, R, importadores SQL, herramientas Linux
- Tabla Excel (
.xlsx) — los números se tipan como celdas numéricas, cabeceras en negrita
Deliberadamente fuera de alcance:
- CSV comprimidos ZIP/GZIP — descomprimir antes
- CSV con columnas de ancho fijo sin separador — caso especial, pipeline propio necesario
- Tablas multi-hoja — un CSV es por definición una hoja
Preguntas frecuentes
Las consultas más frecuentes sobre uso y protección de datos:
¿Por qué mi archivo CSV muestra caracteres mojibake rotos en lugar de tildes?
El archivo se guardó con un juego de caracteres distinto del que espera el programa que lo abre. Los exports de Excel y ERP en español suelen usar Windows-1252 o Latin-1 en lugar de UTF-8 — si un lector UTF-8 lo abre, interpreta cada byte de tilde como dos caracteres. La herramienta detecta el juego de caracteres original y lo convierte a UTF-8.
¿Cómo detecta la herramienta si mi CSV está separado por coma o punto y coma?
La herramienta cuenta en las diez primeras líneas cuántas veces aparece cada separador candidato fuera de comillas. El carácter con la frecuencia más coherente por línea gana. Se detectan coma, punto y coma, tabulación y pipe. La detección automática se puede sobrescribir en cualquier momento mediante el desplegable.
¿Qué significa la opción «Convertir números españoles»?
Las hojas de cálculo en español escriben los millares con punto y los decimales con coma — es decir «1.234,56». Pandas, R y SQL esperan el punto como decimal — «1234.56». Esta opción transforma cada celda que cumpla estrictamente el patrón europeo al formato máquina. Los números de versión como «1.234» permanecen sin cambios.
¿Se suben mis datos CSV a un servidor?
No. Toda la detección y conversión se ejecuta en la pestaña de su navegador. El archivo no se sube, no se guarda y no se analiza.
¿Qué herramientas relacionadas existen?
Otras herramientas del cluster de datos y documentos:
- JSON a CSV — exportar arrays JSON a una tabla CSV, con notación punto para campos anidados.
- CSV a Markdown — convertir tablas CSV a tablas Markdown con barras, ideal para README de GitHub y documentación.
- Comprobador de hash de archivo — calcular hashes SHA-256/512/BLAKE3 y verificar contra ficheros sidecar, íntegramente en el navegador.
Última actualización: