Un artículo de José Miguel Robles Román, ingeniero de telecomunicación e integrante del Grupo de Trabajo Talento50+ del COIT
Soy un apasionado de los podcasts. Me interesa todo, desde teorías sobre la energía oscura hasta relatos históricos como el hallazgo de la tabla de la batalla de Empel. Sin embargo, siempre me he encontrado con un problema: cuando quiero recordar quién dijo algo, en qué episodio o en qué momento, resulta casi imposible localizarlo.
Además, Sttcast es también mi forma de combatir la edaditis, el prejuicio que asocia la innovación solo con los jóvenes. La experiencia aporta valor, y este proyecto es una forma de demostrarlo con resultados.
Qué es Sttcast
Sttcast es un sistema que convierte audios (como los de un podcast) en texto y permite hacer búsquedas inteligentes para encontrar lo que se dijo, quién lo dijo y cuándo.
Su principal valor es que no hace falta recordar las palabras exactas: basta con describir lo que buscas y Sttcast localiza el fragmento más relevante.
Por ejemplo: si alguien pregunta por “ese mecanismo griego antiguo que sale en la última de Indiana Jones”, Sttcast llevará al fragmento sobre el mecanismo de Anticitera. O si se menciona “ese templo muy antiguo en Turquía”, encontrará las referencias a Göbekli Tepe.
Cómo funciona
El sistema utiliza varias inteligencias artificiales. La que transcribe es whisperx, de OpenAI. Se hace uso también de pyannote, una inteligencia de código abierto que es capaz de separar hablantes. Sttcast permite añadir firmas vocales para que la separación se transforme en identificación.
Cada uno de los segmentos transcritos es transformado en un vector para poder utilizar la tecnología RAG (Retrieved Augmented Generation). Con RAG, para cada pregunta se obtienen los fragmentos más cercanos al sentido de la consulta (los vectores de menor distancia semántica al vector de la pregunta),
Estos fragmentos constituyen el contexto. Pregunta y contexto se pasan al LLM (modelo de lenguaje de gran tamaño) para obtener la respuesta. En el mundo de la IA, llamamos modelo al sistema que produce una salida a partir de una entrada. En los LLM puros entradas y salidas son textos. Sin entrar en los detalles diferenciadores, los modelos en IA son lo que en otras ramas de la informática llamamos programas, rutinas, aplicaciones, etc.
El resultado final es que Sttcast genera una respuesta en función del significado de la pregunta, no de su forma. Se permiten, por lo tanto, sinónimos, faltas de ortografía, perífrasis, etc. Todo esto se ofrece mediante una interfaz web, que permite buscar por voz o texto y consultar transcripciones y audios. La resìesta es función, fundamentalmente, del contenido de la colección, independientemente de cómo se haya entrenado el modelo.
La instalación de Sttcast,no precisa contar con hardware especializado, gracias a la posibilidad de ejecutarlo en la nube. También facilita las herramientas para publicar el resultado en la web.
Dónde probarlo
El software es de código abierto y está disponible en: https://github.com/pulijon/Sttcast
Como ejemplo práctico, se han transcrito los diez años del podcast de divulgación científica Coffee Break. Se puede probar en: https://cb.awebaos.org
Un proyecto abierto al futuro
Sttcast es una herramienta diseñada para ser útil y para poner la experiencia al servicio de la innovación. El único requisito para quienes lo usen es que conserven la atribución original, como forma de contribuir a que las palabras no se pierdan y a que el valor de la experiencia se reconozca.