Antoine Chatry | Transcripcion de YouTube en tiempo real

Me complace compartir con ustedes mi último proyecto de código abierto: una herramienta que transcribe los vídeos de YouTube que ves en vivo (en tiempo real).

Aquí tienes una guía paso a paso sobre cómo funciona:

1. Captura de audio

La herramienta «escucha» exactamente lo que reproducen tus altavoces mediante un cable de audio virtual (denominado «loopback»). Los más conocidos son: VB-Cable (Windows), BlackHole (Mac) o Stereo Mix cuando está habilitado.

2. Corte del sonido en pequeños trozos

Cada ~5 segundos, tomamos un trozo de audio. Es lo suficientemente corto como para ser rápido, y lo suficientemente largo como para que la IA comprenda el contexto.

3. Transcripción automática mediante IA local

Cada fragmento se envía a un modelo Whisper (Whisper.cpp). El modelo se ejecuta íntegramente en tu equipo → sin envíos a la nube, sin suscripciones, sin fugas de datos.

4. Adición automática de marcas de tiempo

Tan pronto como se encuentra el texto, se anota la hora exacta:

[00:03:42] Y ahí es donde la historia se pone realmente interesante...

5. Escritura progresiva en un archivo de texto

Todo se añade continuamente a un archivo .txt con la fecha y la hora del día. Al final del vídeo → tienes la transcripción completa, lista para copiar y pegar o volver a leer.

Resumen rápido y tecnologías utilizadas

En pocas palabras:
Pones un vídeo de YouTube → ejecutas el script → lo ves como de costumbre → Ctrl+C para detenerlo → tienes todo el texto con marca de tiempo en un archivo.

Tecnologías utilizadas:

sounddevice: captura audio en directo
whisper.cpp: reconocimiento de voz rápido y local
numpy: gestión del búfer de audio