El doblaje del futuro
Blog Dic 23, 2022
Podcast.ai es un podcast de entrevistas que no cuenta con intervención humana. Las preguntas y respuestas están generadas con inteligencia artificial y leídas e interpretadas por voces sintetizadas de personajes famosos.
Aplicaciones del aprendizaje automático en la industria del doblaje
Según Wikipedia, el “machine learning”, o aprendizaje automático, es un campo de la inteligencia artificial que está dedicado al diseño, análisis y desarrollo de algoritmos y técnicas que permiten que las máquinas evolucionen. Es un área multidisciplinar que, a través de ciencias como la computación, las matemáticas, la lógica y la filosofía, estudia la creación y el diseño de programas capaces de generalizar comportamientos a partir del reconocimiento de patrones o clasificación y de sistemas capaces de resolver problemas cotidianos por sí mismos, utilizando como paradigma la inteligencia humana.
Hace ya años que se utiliza en ámbitos como el reconocimiento de imagen y voz, la detección de fraude online, la conducción de vehículos autónomos, etc. Pero la potencia de computación hace que cada vez tenga un uso más extendido.
Algunos ejemplos más recientes son copy.ai, una herramienta que permite generar contenido en formato texto a partir de una breve descripción; debuild.app, que permite crear una aplicación web simplemente describiendo las necesidades; midjourney, que genera imágenes artísticas a partir de descripciones textuales; o el famoso Chat GPT , una IA en formato chat que es capaz incluso de detectar cláusulas abusivas en un contrato de alquiler.
La aplicación en el doblaje
Las voces sintéticas llevan muchos años existiendo y han mejorado mucho gracias al avance de la inteligencia artificial y las redes neuronales. Pero una cosa es generar una voz sintética que lee frases con cierto realismo, y otra muy distinta, dotarla de sentimiento y humanidad. Existen diferentes enfoques a la hora de aplicar estas tecnologías en el arte del doblaje.
Flawless, una de las empresas que trabaja en ello, centra sus esfuerzos en intentar que la experiencia del espectador sea perfecta en cuanto a sincronía, utilizando la tecnología para editar automáticamente, en el metraje original de la película, los labios de los actores para que se muevan según la interpretación que haya realizado el actor o actriz de doblaje. En este vídeo de la empresa se puede ver un corte de Forrest Gump en el que los labios de Tom Hanks se han sincronizado con la versión castellana de Jordi Brau.
Sonantic fue la encargada de sintetizar la voz de Val Kilmer para la recientemente estrenada película “Top Gun: Maverick”. Esta empresa fue adquirida hace poco por Spotify, interesada en generar nuevas experiencias para los usuarios. El estudio de videojuegos americano Obsidian asegura que antes utilizaban las voces sintéticas como marcadores temporales que después doblaban con profesionales, pero que gracias a Sonantic ya no se molestan en llamar a un profesional.
Deepdub, una empresa israelí que cuenta con una inversión externa de 20M€ (del ex-presidente de Fox, el ex-director comercial de HBO Max o el Vicepresidente de ingeniería de Meta, entre otros), traduce el guión original de forma automática, sintetiza la voz del actor original y la utiliza para generar su versión en el idioma destino. Es decir, cubre todo el proceso de localización de principio a fin. Parece que habrían doblado ya una película para Netflix del inglés al español latinoamericano y al portugués.
Synthesia es (sin contar Sonantic, que ahora forma parte de Spotify) la empresa del sector con mayor inversión (66M€). Dispone de una tecnología que permite generar avatares que leen texto (en 65 idiomas distintos).
Empresas como Speechki, pero también el propio Google, ofrecen un servicio de voces sintéticas para narrar audiolibros. Otra empresa que ofrece servicios similares es DeepZen, que de hecho ya ha sintetizado la voz de un prolífico narrador de audiolibros que sigue narrando libros sin cesar pese a haber fallecido hace años.
Amazon, en cambio, no acepta todavía libros narrados por inteligencias artificiales en su plataforma de audiolibros Audible, aunque sí trabaja por su cuenta en la búsqueda de sistemas para agilizar el proceso de localización de sus productos abaratando su coste. Disney, por su parte, tiene un gran departamento de I+D que, entre otras cosas, investigaba una tecnología similar a la que utiliza Flawless, que permite editar los movimientos de los labios de los actores en cada lengua para encajar con el sonido del actor o actriz de doblaje.
Conclusiones
Si bien es cierto que la tecnología avanza a ritmos cada vez más rápidos, y que lo que hace pocos años parecía imposible hoy es una realidad, los aspectos más creativos y humanos son difíciles de sustituir, y tenemos la hipótesis del valle inquietante a nuestro favor. Quizás la aplicación más realista hoy por hoy sea como herramienta que ayude a mejorar la calidad del proceso de doblaje tradicional.
Un ejemplo claro es el de la empresa Flawless que hemos presentado anteriormente, que lo que pretende es precisamente ajustar el movimiento de los labios del actor original en pantalla a los sonidos que produzca el actor o actriz de doblaje en el idioma destino. En ese caso, el proceso de ajuste se limitaría a encajar la duración de las frases sin tener en cuenta las labiales.
Pero ¿hay trabajos en los que realmente los actores y actrices reales seremos prescindibles a corto plazo?
Seguramente sí. Y de hecho la empresa Sonantic, de la que también hemos hablado, tiene una sección en su página web explicando las bondades de estas nuevas tecnologías, ya que permitirán a los actores y actrices una fuente de ingresos paralela y pasiva, más flexible y sin desgastar las cuerdas vocales. Audioguías, audiodescripciones, documentales, videojuegos, megafonías, tutoriales, etc. serán seguramente los primeros productos en los que la IA empezará a practicar.
Lo que está claro es que deben seguirse de cerca todas estas empresas y tecnologías para entender sus futuras propuestas y poder darles respuestas que sean adecuadas a la realidad y defiendan firmemente los derechos de los actores y las actrices. Por eso asociaciones como Sag Aftra en Estados Unidos ya estudian activamente nuevas tipologías de contratos que se ajusten a la era de la inteligencia artificial y la voz sintética respetando los derechos del actor o actriz originales y evitando que servicios como Fakeyou (un directorio de voces sintéticas gratuitas generalmente robadas) pueda funcionar con impunidad.
Desde DUB seguiremos todas estas novedades de cerca y estaremos preparados cuando estas tecnologías piquen en nuestra puerta.