Comment fonctionne mon outil de transcription YouTube en temps réel ?
Je suis fier de partager avec vous mon dernier petit projet open-source : un outil qui transcrit en direct (temps réel) les vidéos YouTube que vous regardez.
Voici, étape par étape, comment ça fonctionne :
1. Capture du son qui sort de l'ordinateur
L'outil « écoute » exactement ce que vos haut-parleurs jouent grâce à un câble audio virtuel (appelé loopback). Les plus connus : VB-Cable (Windows), BlackHole (Mac), ou Stereo Mix quand il est activé.
2. Découpage du son en petits morceaux
Toutes les ~5 secondes, on prend un bout d'audio. C'est suffisamment court pour être rapide, suffisamment long pour que l'IA comprenne bien le contexte.
3. Transcription automatique par IA locale
Chaque petit bout est envoyé à un modèle Whisper (Whisper.cpp). Le modèle tourne entièrement sur votre machine → zéro envoi vers le cloud, zéro abonnement, zéro fuite de données.
4. Ajout automatique des timestamps
Dès que le texte est trouvé, on note l'heure exacte :
[00:03:42] Et c'est là que l'histoire devient vraiment intéressante…
5. Écriture progressive dans un fichier texte
Tout s'ajoute en continu dans un fichier .txt avec la date et l'heure du jour. À la fin de la vidéo → vous avez la transcription complète, prête à copier-coller ou à relire.
Résumé rapide & technos utilisées
En résumé très court:
Vous mettez une vidéo YouTube → vous lancez le script → vous regardez comme d'habitude → Ctrl+C pour arrêter → vous avez tout le texte horodaté dans un fichier.
Technos utilisées:
- sounddevice : capture l'audio en direct
- whisper.cpp : reconnaissance vocale rapide et locale
- numpy : gestion des buffers audio
Bonnes transcriptions à tous ! 🚀