Technologie qui convertit automatiquement la parole humaine en texte écrit. L'ASR est le cœur des outils de transcription automatique. Les modèles modernes comme Whisper atteignent des précisions proches de la transcription humaine sur des enregistrements de bonne qualité.
Processus qui identifie et sépare les différents locuteurs dans un enregistrement audio. La diarisation répond à la question "qui parle quand ?" Elle est particulièrement utile pour les interviews, réunions et podcasts à plusieurs voix. Le résultat donne une transcription étiquetée par personne (Locuteur 1, Locuteur 2, etc.).
Technique d'entraînement supplémentaire d'un modèle d'IA pré-entraîné sur un jeu de données spécialisé. Pour la transcription, le fine-tuning permet d'améliorer la précision sur un vocabulaire métier spécifique (médecine, droit, finance) ou un accent particulier.
Adaptation du SEO pour les moteurs de recherche génératifs (ChatGPT, Perplexity, Google AI Overview, Bing Copilot). Alors que le SEO classique vise à ranker dans les résultats Google, le GEO vise à être cité comme source par les LLMs. Les pages bien structurées, avec du contenu clair et factuel, sont favorisées.
Phénomène où un modèle d'IA génère du contenu factuellement incorrect mais présenté avec confiance. Dans le contexte de la transcription, une "hallucination" désigne des mots ou phrases inventés par le modèle qui ne correspondent pas à ce qui a réellement été dit dans l'audio. Whisper peut halluciner sur les passages silencieux ou très bruités.
Modèle d'intelligence artificielle entraîné sur de très grands volumes de texte pour comprendre et générer du langage naturel. GPT-4, Claude, Gemini, Llama sont des LLMs. Dans Penslate, les LLMs sont utilisés en aval de Whisper pour structurer et reformater le texte transcrit en fonction du format de sortie souhaité.
Convention émergente (2024) consistant à placer un fichier llms.txt à la racine d'un site web. Ce fichier résume en Markdown le contenu et la structure du site pour faciliter sa lecture par les LLMs et améliorer sa visibilité dans les moteurs de recherche génératifs. L'équivalent du robots.txt pour l'ère de l'IA.
Architecture où un LLM est connecté à une base de connaissances externe qu'il peut interroger avant de générer une réponse. Le RAG permet d'ancrer les réponses dans des faits vérifiables et de réduire les hallucinations. Penslate utilise une approche RAG pour enrichir les transcriptions avec du contexte structuré.
Format de fichier standard pour les sous-titres. Un fichier SRT contient des blocs numérotés avec les timestamps de début/fin et le texte associé. C'est le format le plus universel, accepté par YouTube, Vimeo, la plupart des lecteurs vidéo et les plateformes de montage.
Marqueurs temporels associant chaque mot ou segment de texte à sa position précise dans l'audio ou la vidéo source. Les timestamps permettent de naviguer rapidement dans une longue transcription, de générer des sous-titres synchronisés et de localiser un passage précis sans réécouter tout l'enregistrement.
Conversion d'un contenu audio ou vidéo en texte écrit par un système informatique, sans intervention humaine. Contrairement à la transcription manuelle (effectuée par un humain), la transcription automatique est quasi-instantanée mais peut produire des erreurs sur les accents, noms propres ou termes techniques peu fréquents dans les données d'entraînement.
Processus de découpage d'un texte en unités élémentaires (tokens) pour les traiter avec un modèle d'IA. Un token représente en moyenne 3 à 4 caractères en français. La limite de "contexte" d'un LLM est exprimée en tokens — plus elle est grande, plus le modèle peut traiter de longs documents en une seule fois.
Métrique standard pour mesurer la précision d'un système de transcription automatique. Le WER représente le pourcentage de mots incorrects dans la transcription par rapport au texte de référence. Un WER de 2% signifie 2 mots erronés pour 100 mots transcrits. Whisper large-v3 affiche un WER de 2,7% en français sur des benchmarks standards.
Modèle open-source de reconnaissance vocale développé par OpenAI et publié en 2022. Whisper est entraîné sur 680 000 heures d'audio multilingue collecté sur internet. Il reconnaît automatiquement la langue parlée et supporte 99 langues. La version large-v3, utilisée par Penslate, est la plus précise de la famille avec un WER de ~2,7% en français.