Whisper large-v3 atteint 98% de précision en français dans des conditions idéales. En pratique, certaines erreurs d'enregistrement font chuter ce chiffre à 85-88% — ce qui représente, sur un texte de 1 000 mots, la différence entre 20 corrections et 120 à 150. Ces erreurs sont toutes évitables. Voici les 5 plus fréquentes et comment les corriger avant même d'enregistrer.
C'est l'erreur la plus fréquente et la plus destructrice. Un fond sonore constant — musique d'ambiance, ventilateur, air conditionné — oblige le modèle à séparer la voix du bruit. Whisper gère bien les bruits statiques à faible intensité, mais les bruits variables (rue, café, conversations en arrière-plan) confondent le modèle qui tente d'identifier plusieurs sources audio simultanément.
Les mots de faible intensité — particules de langage, fins de phrases, liaisons — sont les premières victimes. Un fond sonore à -20 dB sous la voix est acceptable. À -10 dB, la précision dégrade visiblement.
Whisper large-v3 n'est pas un modèle de diarisation native — il transcrit l'audio sans distinguer nativement les locuteurs. Quand deux voix se superposent, il tente de transcrire les deux simultanément, ce qui produit des passages chaotiques mêlant les deux discours.
C'est particulièrement problématique dans les interviews, podcasts à plusieurs hôtes, et réunions non modérées où les interlocuteurs se coupent régulièrement. Les 2 à 3 secondes de chevauchement sont souvent complètement inutilisables.
Le micro intégré d'un ordinateur portable capte la voix à 50-80 cm avec une capsule omnidirectionnelle — ce qui signifie qu'il capte aussi tout ce qui se passe dans la pièce. La compression et le noise gate intégré des micros laptop dégradent encore plus le signal, en coupant les attaques et en ajoutant des artefacts.
La distance au micro est critique : doubler la distance divise l'intensité sonore par 4 (loi du carré inverse). À 50 cm, la voix perd 12 dB par rapport à 25 cm. Whisper compense partiellement, mais la reconstruction d'un signal dégradé a des limites.
Le français oral courant oscille entre 150 et 180 mots par minute. Au-delà de 180 mots par minute, Whisper commence à manquer des mots courts — les articles, les prépositions, les négations — qui sont phonétiquement les moins distincts. Les liaisons à haute vitesse produisent des erreurs de segmentation : "c'est une" transcrit en "c'est tun" ou "setune".
L'absence de pauses entre les phrases est un problème différent : le modèle utilise les silences pour segmenter les phrases. Sans pauses, la ponctuation générée automatiquement est approximative, ce qui rend le texte difficile à lire même si les mots sont corrects.
Whisper détecte automatiquement la langue dominante dans les premières secondes de l'audio. Si tu alternes régulièrement entre le français et l'anglais — comme c'est courant dans les contenus tech, marketing ou business — le modèle peut hésiter sur la langue d'interprétation de certains passages.
Le résultat typique : des termes anglais transcrits phonétiquement en français ("framework" transcrit "framveurk"), ou des passages bilingues dont la ponctuation et l'orthographe sont incohérentes. Les mots isolés dans une langue minoritaire (un anglicisme dans un texte majoritairement français) sont les plus affectés.