Antoine Chatry, foto de perfil, desarrollador web

Antoine Chatry

codewars score

Como mi herramienta de transcripción en tiempo real de YouTube funciona?

Me complace compartir con ustedes mi último proyecto de código abierto: una herramienta que transcribe los vídeos de YouTube que ves en vivo (en tiempo real).

Aquí tienes una guía paso a paso sobre cómo funciona:


1. Captura de audio

La herramienta «escucha» exactamente lo que reproducen tus altavoces mediante un cable de audio virtual (denominado «loopback»). Los más conocidos son: VB-Cable (Windows), BlackHole (Mac) o Stereo Mix cuando está habilitado.

2. Corte del sonido en pequeños trozos

Cada ~5 segundos, tomamos un trozo de audio. Es lo suficientemente corto como para ser rápido, y lo suficientemente largo como para que la IA comprenda el contexto.

3. Transcripción automática mediante IA local

Cada fragmento se envía a un modelo Whisper (Whisper.cpp). El modelo se ejecuta íntegramente en tu equipo → sin envíos a la nube, sin suscripciones, sin fugas de datos.

4. Adición automática de marcas de tiempo

Tan pronto como se encuentra el texto, se anota la hora exacta:

[00:03:42] Y ahí es donde la historia se pone realmente interesante...

5. Escritura progresiva en un archivo de texto

Todo se añade continuamente a un archivo .txt con la fecha y la hora del día. Al final del vídeo → tienes la transcripción completa, lista para copiar y pegar o volver a leer.

Resumen rápido y tecnologías utilizadas

En pocas palabras:
Pones un vídeo de YouTube → ejecutas el script → lo ves como de costumbre → Ctrl+C para detenerlo → tienes todo el texto con marca de tiempo en un archivo.

Tecnologías utilizadas:

Enlace al proyecto: https://github.com/AntoineChatry/realtime-youtube-transcribe
¡Feliz transcripción a todos! 🚀