El doblatge del futur
Blog des. 23, 2022
Podcast.ai és un podcast d’entrevistes que no compta amb intervenció humana. Les preguntes i les respostes estan generades amb intel·ligència artificial i llegides i interpretades per veus sintetitzades de personatges famosos.
Aplicacions de l’aprenentatge automàtic a la indústria del doblatge
Segons la Viquipèdia, el “machine learning”, o aprenentatge automàtic, és un camp de la intel·ligència artificial que està dedicat al disseny, l’anàlisi i el desenvolupament d’algorismes i tècniques que permeten que les màquines evolucionin. És una àrea multidisciplinària que, a través de ciències com la computació, les matemàtiques, la lògica i la filosofia, estudia la creació i el disseny de programes capaços de generalitzar comportaments a partir del reconeixement de patrons o classificació i de sistemes capaços de resoldre problemes quotidians per si mateixos, utilitzant com a paradigma la intel·ligència humana.
Ja fa anys que s’utilitza en àmbits com el reconeixement d’imatge i veu, la detecció de frau online, la conducció de vehicles autònoms, etc. Però la potència de computació fa que cada vegada tingui un ús més estès.
Alguns exemples més recents són copy.ai, una eina que permet generar contingut en format text a partir d’una breu descripció; debuild.app, que permet crear una aplicació web simplement descrivint les necessitats; midjourney, que genera imatges artístiques a partir de descripcions textuals; o el famós Chat GPT, una IA en format xat que és capaç fins i tot de detectar clàusules abusives en un contracte de lloguer.
L’aplicació en el doblatge
Les veus sintètiques fa molts anys que existeixen i han millorat molt gràcies a l’avançament de la intel·ligència artificial i les xarxes neuronals. Però una cosa és generar una veu sintètica que llegeix frases amb cert realisme, i una altra de molt diferent, dotar-la de sentiment i humanitat. Hi ha diferents enfocaments a l’hora d’aplicar aquestes tecnologies a l’art del doblatge.
Flawless, una de les empreses que hi treballa, centra els seus esforços en intentar que l’experiència de l’espectador sigui perfecta quant a sincronia, utilitzant la tecnologia per a editar automàticament, en el metratge original del film, els llavis dels actors perquè es moguin segons la interpretació que hagi fet l’actor o actriu de doblatge. En aquest víideo de l’empresa es pot veure un tall de Forrest Gump en què els llavis de Tom Hanks s’han sincronitzat amb la versió castellana de Jordi Brau.
Sonantic va ser l’encarregada de sintetitzar la veu de Val Kilmer per a la recentment estrenada pel·lícula “Top Gun: Maverick”. Aquesta empresa va ser adquirida fa poc per Spotify, interessada en generar noves experiències per als usuaris. L’estudi de videojocs americà Obsidian assegura que abans feien servir les veus sintètiques com a marcadors temporals que després doblaven amb professionals, però que gràcies a Sonantic ja no es molesten en cridar a un professional.
Deepdub, una empresa israeliana que compta amb una inversió externa de 20M€ (de l’ex-president de Fox, l’ex-director comercial d’HBO Max o el Vicepresident d’enginyeria de Meta, entre d’altres), tradueix el guió original de manera automàtica, sintetitza la veu de l’actor original i la utilitza per generar-ne la versió en l’idioma destí. És a dir, cobreix tot el procés de localització de principi a fi. Sembla que ja haurien doblat una pel·lícula per a Netflix de l’anglès a l’espanyol llatinoamericà i al portuguès.
Synthesia és (sense comptar Sonantic, que ara forma part de Spotify) l’empresa del sector amb més inversió (66M€). Disposa d’una tecnologia que permet generar avatars que llegeixen text (en 65 idiomes diferents).
Empreses com Speechki, però també Google mateix, ofereixen un servei de veus sintètiques per a narrar audiollibres. Una altra empresa que ofereix serveis similars és DeepZen, que de fet ja ha sintetitzat la veu d’un prolífic narrador d’audiollibres que segueix narrant llibres sense parar tot i haver mort fa anys.
Amazon, en canvi, no accepta encara llibres narrats per intel·ligències artificials a la seva plataforma d’audiollibres Audible, tot i que sí que treballa pel seu compte en la recerca de sistemes per a agilitzar el procés de localització dels seus productes tot abaratint-ne el cost. Disney, per la seva banda, té un gran departament de R+D que, entre d’altres coses, investigava una tecnologia similar a la que fa servir Flawless, que permet editar els moviments dels llavis dels actors en cada llengua per a encaixar amb el so de l’actor o actriu de doblatge.
Conclusions
Si bé és cert que la tecnologia avança a ritmes cada cop més ràpids, i que el que fa pocs anys semblava impossible avui és una realitat, els aspectes més creatius i humans són difícils de substituir, i tenim la hipòtesi de la vall inquietant al nostre favor. Potser l’aplicació més realista ara per ara és com a eina que ajudi a millorar la qualitat del procés de doblatge tradicional.
Un exemple clar és el de l’empresa Flawless que hem presentat anteriorment, que el que pretén és precisament ajustar el moviment dels llavis de l’actor original en pantalla als sons que produeixi l’actor o actriu de doblatge en l’idioma destí. En aquest cas, el procés d’ajust es limitaria a encaixar la durada de les frases sense tenir en compte les labials.
Però hi ha feines en què realment els actors i actrius reals serem prescindibles a curt termini?
Segurament sí. I de fet l’empresa Sonantic, de la qual també hem parlat, té una secció a la seva pàgina web explicant les bondats d’aquestes noves tecnologies, ja que permetran als actors i a les actrius una font d’ingressos paral·lela i passiva, més flexible i sense desgastar les cordes vocals. Audioguies, audiodescripcions, documentals, videojocs, megafonies, tutorials, etc. seran segurament els primers productes en què la IA començarà a practicar.
El que és clar és que s’han de seguir de ben a prop totes aquestes empreses i tecnologies per entendre les seves futures propostes i poder donar-los respostes que siguin adequades a la realitat i defensin fermament els drets dels actors i les actrius. És per això que associacions com Sag Aftra als Estats Units ja estudien activament noves tipologies de contractes que s’ajustin a l’era de la intel·ligència artificial i la veu sintètica tot respectant els drets de l’actor o actriu originals i evitant que serveis com Fakeyou (un directori de veus sintètiques gratuïtes generalment robades) pugui funcionar amb impunitat.
Des de DUB seguirem totes aquestes novetats de ben a prop i estarem preparats quan aquestes tecnologies piquin a la nostra porta.