Mes données audio sont-elles envoyées sur un serveur ?

Non. La transcription s'exécute entièrement en local dans votre navigateur via WebAssembly. Il n'y a pas de backend, pas de clé API, pas de logs. Votre fichier audio ne quitte jamais votre appareil.

Quelles langues sont prises en charge ?

Détection automatique ainsi qu'un mode forcé pour le français, l'anglais, l'allemand et l'espagnol. Le modèle neuronal de reconnaissance vocale sous-jacent prend en charge une centaine de langues — il fonctionne le plus fiablement en français et en anglais avec une prononciation nette.

Quels formats l'outil accepte-t-il ?

MP3, WAV, M4A (AAC), OGG et WebM. Vous couvrez ainsi les mémos vocaux de smartphone, les dictaphones, les enregistrements Zoom/Teams et les exports podcast courants. Pour des formats moins habituels (FLAC, AIFF, WMA), convertissez d'abord en MP3 à 128 kbps — des débits plus élevés n'améliorent pas la précision de reconnaissance.

Combien de temps prend une transcription ?

Sur un ordinateur portable récent, le traitement atteint environ 2 à 4 fois la vitesse temps réel. Un enregistrement de 5 minutes est généralement prêt en 1 à 2 minutes ; une réunion de 30 minutes en 8 à 15 minutes. Sur des appareils plus anciens ou des smartphones, comptez davantage.

Puis-je exporter des sous-titres SRT avec horodatages ?

Oui. Au téléchargement, vous choisissez entre une sortie TXT brute et le format SRT. Le SRT contient pour chaque bloc de sous-titres un horodatage de début et de fin (HH:MM:SS,mmm) et s'intègre directement dans Premiere, DaVinci Resolve, CapCut ou VLC.

Quelle est la précision de la reconnaissance ?

Pour un enregistrement clair, micro proche et environnement calme, la précision de mot se situe typiquement entre 90 et 95 pour cent. Musique d'arrière-plan, accents marqués, jargon métier et locuteurs qui se chevauchent abaissent sensiblement le résultat. Toujours relire avant publication.

Puis-je distinguer plusieurs locuteurs ?

La diarisation des locuteurs (qui-a-dit-quoi) n'est pas prise en charge à ce jour. La sortie est un flux de transcript continu. Les noms de locuteurs peuvent être ajoutés à la main après la copie.

L'outil fonctionne-t-il hors ligne ?

Oui. Une fois le modèle dans le cache du navigateur, la transcription s'exécute entièrement sans connexion Internet. Pratique pour les voyages de reportage, les trajets en train ou les enregistrements confidentiels sans connexion externe.

Transcription audio — voix vers texte dans le navigateur

Comment fonctionne la transcription audio dans le navigateur ?

Le traitement se déroule en deux étapes directement sur votre appareil — sans qu’un fichier ne quitte l’appareil. À la première étape, la Web Audio API normalise votre fichier : il est rééchantillonné en mono 16 kHz, parce que les modèles de reconnaissance vocale attendent ce format d’entrée. Plusieurs canaux sont moyennés en un signal mono, le convertisseur de taux d’échantillonnage lisse les fréquences.

À la deuxième étape, un moteur d’inférence compilé en WebAssembly prend le relais. WebAssembly exécute les algorithmes intensifs en calcul à une vitesse quasi native dans le navigateur — sans plugin, sans installation. Au premier appel, le modèle est mis en cache du navigateur une fois pour toutes. Dès le deuxième appel, la transcription s’exécute entièrement hors ligne.

Trois niveaux de qualité — lequel choisir ?

Le choix est un compromis entre taille de téléchargement, vitesse et précision de reconnaissance :

Niveau	Taille du modèle	Vitesse	Recommandation
Rapide	~152 Mo	très rapide	Mobile, courts mémos, notes
Précis	~291 Mo	équilibré	Par défaut pour réunions, interviews, podcasts
Très précis	~968 Mo	plus lent	Enregistrements studio, conférences techniques

Le niveau se choisit dans le sélecteur de modèle directement sous la zone de dépôt. Le changement est possible à tout moment — chaque niveau est mis en cache séparément.

100 % protection des données, 0 cloud

L’outil n’entre à aucun moment en contact avec un serveur externe. Pas de compte, pas d’inscription, pas de consentement à un quelconque partage de données. Si vous fermez l’onglet du navigateur, aucune donnée ne subsiste — ni stockée en local ni dans un cloud. Cela rend l’outil particulièrement adapté aux enregistrements confidentiels : réunions sous NDA, consultations médicales, entretiens d’avocat ou interviews RH internes.

Comment obtenir les meilleurs résultats ?

Enregistrement clair : moins il y a de bruits de fond, plus la reconnaissance est précise. Une pièce silencieuse aide plus que des filtres a posteriori.
Distance au micro : 20–30 cm du micro réduit les distorsions et les plosives.
Articulation nette : parler lentement et clairement augmente le taux de reconnaissance — surtout pour les termes techniques.
Débit pour les gros fichiers : un MP3 à 128 kbps comprime une heure de parole sous 60 Mo. Des débits supérieurs n’apportent rien à la reconnaissance vocale.
Découper les enregistrements longs : segmentez les interviews de plusieurs heures en blocs de 30–60 minutes. C’est plus stable et cela vous donne des points de découpage naturels.
Forcer la langue pour les clips courts : la détection automatique a besoin d’environ 30 secondes d’audio. Pour les clips plus courts ou les accents marqués, utilisez l’override de langue.”

TXT ou SRT — quel export choisir ?

Au téléchargement, vous choisissez entre deux formats :

TXT — texte courant pur, un paragraphe, idéal pour les comptes rendus de réunion, les brouillons d’articles ou les notes de recherche.
SRT — format de sous-titres SubRip avec horodatages de début et de fin par bloc (00:01:23,456 --> 00:01:28,910). S’intègre directement dans YouTube, Premiere Pro, DaVinci Resolve, CapCut ou VLC.

Pour les sous-titres de contenu social ou de vidéos pédagogiques, téléchargez le SRT et importez-le dans votre éditeur vidéo. Police, taille et position sont rendues par le lecteur — l’outil ne fournit que le texte synchronisé.

Quand la transcription dans le navigateur est-elle pertinente ?

La transcription dans le navigateur est le premier choix dès que la confidentialité ou la conformité protection des données entrent en jeu.

Comptes rendus de réunion. Les enregistrements de réunions internes doivent souvent rester confidentiels. Puisqu’aucune donnée audio n’est transmise à l’extérieur, une fuite involontaire est exclue. Une heure de réunion produit typiquement 5 000 à 8 000 mots de transcript.

Transcriptions d’interview. Les interviews journalistiques, les études qualitatives ou les entretiens RH peuvent être mis par écrit directement après le rendez-vous — sans qu’un tiers n’ait accès au contenu.

Numériser des notes vocales. Mettre rapidement par écrit des idées dictées, des listes de courses ou des entrées de journal, puis les traiter dans des applis de notes comme Obsidian, Notion ou Apple Notes.

Sous-titres pour vos propres vidéos. Vidéos pédagogiques, tutoriels ou Reels : l’export SRT vous donne la base sur laquelle vous ne corrigez plus que les fautes de frappe dans l’éditeur. Améliore l’accessibilité pour les personnes sourdes et toutes celles qui regardent les vidéos sans son.

Recherche académique. Les chercheurs et chercheuses en méthodes qualitatives transcrivent les interviews sans transmettre de données sensibles à des prestataires de transcription externes — conforme RGPD, sans contrat de sous-traitance.

Quels formats sont pris en charge ?

L’outil accepte les formats audio les plus courants : MP3, WAV, M4A (AAC), OGG Vorbis et WebM Opus. Le WAV offre la meilleure qualité de départ, mais est nettement plus volumineux. Le MP3 offre le meilleur compromis taille/qualité. Les très gros fichiers (au-delà de 200 Mo) peuvent provoquer des goulots d’étranglement mémoire sur les appareils anciens ou les smartphones — dans ce cas, découpez avant.

Quels outils complètent celui-ci ?

Dans l’écosystème kittokit pour le workflow Audio → Texte → traitement ultérieur :

Améliorer la voix — supprimer bruit, écho et bruits de fond d’un enregistrement avant de le transcrire. Améliore sensiblement la précision de reconnaissance.
Compteur de caractères — déterminer mots, caractères et temps de lecture de votre transcript. Pratique pour raccourcir les comptes rendus de réunion pour une newsletter ou un brouillon d’article.
Text-Diff — comparer deux versions d’un transcript, par exemple original et version relue. Indique les modifications mot par mot.

Transcription audio

Comment ça marche

Choisir un fichier audio

Choisir qualité et langue

Récupérer le transcript

Confidentialité

Comment utiliser cet outil ?