Transcrire une vidéo YouTube gratuitement, c'est possible avec trois approches très différentes. La première est intégrée directement dans YouTube. La deuxième passe par le modèle Whisper d'OpenAI en ligne de commande. La troisième utilise un SaaS comme Penslate, gratuit jusqu'à 30 minutes de contenu par mois. Le bon choix dépend de ton niveau technique, du volume à traiter et de la qualité requise.
YouTube génère automatiquement des sous-titres pour la quasi-totalité des vidéos. Pour y accéder sur une vidéo que tu possèdes, rends-toi dans YouTube Studio → Sous-titres → sélectionne la vidéo → clique sur les trois points à côté de la piste automatique → Télécharger.
Sur une vidéo que tu ne possèdes pas, il faut passer par l'interface vidéo : clique sur les trois points sous le lecteur → Ouvrir la transcription. La transcription s'affiche dans le panneau latéral — tu peux la copier-coller manuellement.
Limite importante : les sous-titres automatiques YouTube sont générés par un modèle moins précis que Whisper large-v3. En français, la précision tourne autour de 85-88%. Il n'y a pas de ponctuation correcte, pas de paragraphes, et les termes techniques ou les noms propres sont souvent mal retranscrits. Pour une utilisation directe dans un article de blog, le texte nécessite une révision substantielle.
À utiliser quand : tu as besoin d'une transcription approximative rapidement, sur une vidéo que tu ne peux pas importer dans un autre outil, sans aucune installation requise.
Whisper est le modèle de transcription open-source d'OpenAI, entraîné sur 680 000 heures d'audio multilingue. Le modèle large-v3 atteint un Word Error Rate (WER) de 2,7% en français — soit 98% de précision — et supporte 99 langues. Il est entièrement gratuit à utiliser localement.
Installation en trois commandes :
pip install openai-whisper
pip install yt-dlp
yt-dlp -x --audio-format mp3 "URL_YOUTUBE" -o audio.mp3
whisper audio.mp3 --model large-v3 --language fr
Whisper génère plusieurs fichiers de sortie : .txt (texte brut), .srt (sous-titres avec timestamps), .vtt, et .json (avec timestamps au niveau du mot). La qualité est identique à ce que Penslate utilise en backend.
Les contraintes : le modèle large-v3 requiert ~10 Go de VRAM pour tourner confortablement. Sur CPU, la transcription d'une heure de contenu prend 20 à 40 minutes selon ta machine. Sans GPU dédié, le modèle small ou medium est plus rapide mais moins précis (92-95% en français).
À utiliser quand : tu as un volume important à traiter, tu es à l'aise avec la ligne de commande, et tu veux contrôler entièrement le pipeline sans dépendre d'un service externe.
Un SaaS de transcription comme Penslate fait tourner Whisper large-v3 sur une infrastructure cloud avec GPU — ce qui donne la même précision que la méthode CLI, sans installation, sans délai d'attente, et avec du formatage automatique en sortie.
Le workflow est minimal : tu colles l'URL YouTube dans l'interface, tu choisis le format de sortie (transcription brute, article de blog, fiche de révision, compte-rendu), et la transcription est prête en moins de 2 minutes pour une heure de contenu.
Penslate est gratuit jusqu'à 30 minutes de contenu par mois. Au-delà, les abonnements démarrent pour les créateurs avec un volume régulier.
À utiliser quand : tu veux la meilleure qualité immédiatement, sans setup technique, avec un résultat directement utilisable (article structuré, fiche, compte-rendu) plutôt qu'un texte brut.
| Méthode | Précision (FR) | Délai | Setup | Formatage |
|---|---|---|---|---|
| Sous-titres YouTube natifs | ~87% | Instantané | Aucun | Aucun (copier-coller) |
| Whisper CLI (large-v3) | 98% | 20-40 min (CPU) / 2 min (GPU) | Python + pip (technique) | .txt, .srt, .json |
| Penslate (SaaS) | 98% | <2 min pour 1h | Aucun (navigateur) | Article, fiche, compte-rendu |
La différence de précision entre les sous-titres natifs et Whisper large-v3 peut sembler faible en pourcentage — 87% vs 98% — mais sur un article de 1 000 mots, cela représente la différence entre 130 erreurs à corriger et 20. Pour du contenu publié, ce n'est pas la même révision.
Essaie la méthode 3