Como mi herramienta de transcripción en tiempo real de YouTube funciona?
Me complace compartir con ustedes mi último proyecto de código abierto: una herramienta que transcribe los vídeos de YouTube que ves en vivo (en tiempo real).
Aquí tienes una guía paso a paso sobre cómo funciona:
1. Captura de audio
La herramienta «escucha» exactamente lo que reproducen tus altavoces mediante un cable de audio virtual (denominado «loopback»). Los más conocidos son: VB-Cable (Windows), BlackHole (Mac) o Stereo Mix cuando está habilitado.
2. Corte del sonido en pequeños trozos
Cada ~5 segundos, tomamos un trozo de audio. Es lo suficientemente corto como para ser rápido, y lo suficientemente largo como para que la IA comprenda el contexto.
3. Transcripción automática mediante IA local
Cada fragmento se envía a un modelo Whisper (Whisper.cpp). El modelo se ejecuta íntegramente en tu equipo → sin envíos a la nube, sin suscripciones, sin fugas de datos.
4. Adición automática de marcas de tiempo
Tan pronto como se encuentra el texto, se anota la hora exacta:
[00:03:42] Y ahí es donde la historia se pone realmente interesante...
5. Escritura progresiva en un archivo de texto
Todo se añade continuamente a un archivo .txt con la fecha y la hora del día. Al final del vídeo → tienes la transcripción completa, lista para copiar y pegar o volver a leer.
Resumen rápido y tecnologías utilizadas
En pocas palabras:
Pones un vídeo de YouTube → ejecutas el script → lo ves como de costumbre → Ctrl+C para detenerlo → tienes todo el texto con marca de tiempo en un archivo.
Tecnologías utilizadas:
- sounddevice: captura audio en directo
- whisper.cpp: reconocimiento de voz rápido y local
- numpy: gestión del búfer de audio
¡Feliz transcripción a todos! 🚀