Antoine Chatry | Transcription YouTube en temps reel

Je suis fier de partager avec vous mon dernier petit projet open-source : un outil qui transcrit en direct (temps réel) les vidéos YouTube que vous regardez.

Voici, étape par étape, comment ça fonctionne :

1. Capture du son qui sort de l'ordinateur

L'outil « écoute » exactement ce que vos haut-parleurs jouent grâce à un câble audio virtuel (appelé loopback). Les plus connus : VB-Cable (Windows), BlackHole (Mac), ou Stereo Mix quand il est activé.

2. Découpage du son en petits morceaux

Toutes les ~5 secondes, on prend un bout d'audio. C'est suffisamment court pour être rapide, suffisamment long pour que l'IA comprenne bien le contexte.

3. Transcription automatique par IA locale

Chaque petit bout est envoyé à un modèle Whisper (Whisper.cpp). Le modèle tourne entièrement sur votre machine → zéro envoi vers le cloud, zéro abonnement, zéro fuite de données.

4. Ajout automatique des timestamps

Dès que le texte est trouvé, on note l'heure exacte :

[00:03:42] Et c'est là que l'histoire devient vraiment intéressante…

5. Écriture progressive dans un fichier texte

Tout s'ajoute en continu dans un fichier .txt avec la date et l'heure du jour. À la fin de la vidéo → vous avez la transcription complète, prête à copier-coller ou à relire.

Résumé rapide & technos utilisées

En résumé très court:
Vous mettez une vidéo YouTube → vous lancez le script → vous regardez comme d'habitude → Ctrl+C pour arrêter → vous avez tout le texte horodaté dans un fichier.

Technos utilisées:

sounddevice : capture l'audio en direct
whisper.cpp : reconnaissance vocale rapide et locale
numpy : gestion des buffers audio