El podcast XRey y la compañía vasca Vicomtech, clonó la voz del dictador Francisco Franco. Pero la clonación de voz puede tener aún más aplicaciones.
Aflorithmic Labs la utiliza para personalizar los productos de otras empresas en distintos ámbitos relacionados con la producción de audio. ¿Te imaginas que el entrenador virtual de la app de tu gimnasio se dirigiese a ti por tu nombre?
«Queremos hacer que la creación de audio sea tan fácil como escribir un blog», explica en una entrevista con Business Insider España el CCO y fundador de la empresa, Björn Ühss, que añade que actualmente es más complicado.
«Si quieres crear un anuncio, por ejemplo, o un podcast o un audiolibro, no solo es la persona que habla al micrófono. El proceso es muy largo».
El CMO de la compañía, Matthias Lehman, especifica un poco más: «Tienes que empezar con algo escrito. Después, lo pasas a un actor al que tienes que contratar. También ir a un estudio y contratar a un ingeniero de audio que te trabaja todo eso, y acabas con un audio».
La solución de Aflorithmic consiste en la clonación de voz, ya sea de un actor o de otra ya existente, seguido de un proceso de mastering automatizado en la nube, lo que permite tener tantos audios como el cliente quiere.
No obstante, ambos cargos de la compañía explican que ellos no quieren acabar con los trabajos de los actores, sino hacerlos más automáticos para que tengan aplicación en más campos.
El primer paso es que alguien grabe determinadas frases que van a permitir que la clonación de voz. Una vez se ha hecho esto, basta con introducir un texto.
De momento, los idiomas con los que están trabajando son el alemán, el inglés y el español.
La compañía nació en febrero de 2019 con el objetivo de democratizar este proceso, aunque ya habían hecho experimentos el año anterior.
Para Lehman y Ühss, el factor diferenciador de su compañía es que ellos abarcan todo el proceso de la producción de audio, frente a otras compañías que solo se encargan de hacer la clonación de voz.
Lehman puntualiza que la tecnología aún es limitada y que en audios de larga duración, se aprecia que la voz es artificial. «Si escuchas todo un libro con una voz sintética llega un punto en el que te cansas y no quieres seguir», explica. «Lo que nosotros hacemos ahora es crear el audio específicamente para el uso de la voz».
El CMO explica que si el actor graba la voz de una determinada forma, será así como suene en la grabación. Por ejemplo, si está contento, la voz sonará de esa forma y no se podrá adaptar su uso a otra situación.
No obstante, Lehman considera que el audio as a service es un negocio que va a «explotar» muy pronto.
«Hay estudios que afirman que en aproximadamente un 80% de los casos se puede decir si la voz es artificial o real, pero eso significa que en el otro 20% no, y en los próximos 2 ó 3 años ya no sé podrá escuchar ninguna diferencia», expone.
«La calidad de las voces va a subir muchísimo (…). Entonces, sí se podrán hacer podcasts enteros».
El CMO de la compañía también cree que existirán varios modelos que permitirán que esta se adapte la clonación de voz, en vez de tener que grabar de distintas formas los audios para que encajen.
Otras compañías más grandes están trabajando en este sentido, pero el CMO asegura que su tamaño les impide ser más ágiles que otras más pequeñas, como Aflorithmic Labs.
Esa capacidad de adaptación y de similitud con la realidad echa para atrás en muchas ocasiones al público general.
Tanto Ühss como Lehman inciden en que no se puede determinar con exactitud hasta qué punto se considera natural una voz que viene de un actor si no se le ve hablar. De hecho, el CCO destaca que los niños apenas ven en televisión una voz que sea «natural», ya que el espectador no ve cómo los actores hablan en los dibujos animados.
«Hablamos de artificial, y lo artificial tiene pinta como de frío, de no personal, cuando en realidad es lo contrario», comenta Lehman.
«Cuando hablamos por zoom es una cámara que convierte nuestra imagen en unos y ceros y luego lo vuelve a convertir en nuestras computadoras. Pero si el color de tu piel o tu pelo es así no lo sabemos, porque es artificial. ¿En qué punto dejamos de ser humanos y cuándo empezamos a serlo?».
Aflorithmic Labs trabaja, principalmente, en 3 ámbitos: apps de deporte, personalización de cuentos para niños y marketing de influencers.
La personalización de los audios permite ofrecer una mejor experiencia de usuario y dar un valor añadido.
En el caso del deporte, el audio personalizado puede hacer que la persona que esté practicando deporte sea capaz de sacar sus últimas fuerzas para acabar un entrenamiento, cuentan los entrevistados.
«Es como tener un entrenador personal», explica Ühss. «Queremos cerrar ese gap: aquí tienes a tu coach personal que conoce tu nombre y es personalizado».
Las historias personalizas para niños les han ayudado durante la cuarentena, explican en Aflorithmic Labs, que sacaron el proyecto durante el primer confinamiento en alemán.
«Creamos una historia personalizada para que los niños en casa no se depriman, que jueguen en las distintas habitaciones», cuenta Ühss.
«Cada habitación era un mundo y el niño jugaba con el grifo de agua y todos los elementos de la casa».
No es la primera vez que se usa la inteligencia artificial en este sector: Miquela es una conocida instagramer que factura 12.1 millones de dólares por ingresos publicitarios.
Asimismo, Aflorithmic Labs ha recibido una subvención por parte del Gobierno británico para usar la clonación de voz en un proyecto para evitar que la gente mayor se sienta sola.
«Hay un montón de gente que está sola, que no habla con nadie y que a veces no se toman sus medicamentos. Así, alguien te puede hablar y recordártelo», explica Ühss, que añade que se utiliza la voz de familiares de esa persona.
La compañía cuenta con 2 sedes, una en Barcelona y otra en Londres, aunque tanto el fundador como el CMO insisten en que hay gente trabajando desde diferentes localizaciones repartidas por el mundo.
Entre las 2 sedes se reparten los 20 empleados con los que cuenta la compañía.
Los 3 fundadores de Afloritmic Labs, Timo Kunz, Peadar Coyle y Ühss, crearon la compañía con fondos propios, una inversión que completaron con una ronda FFF (amigos, familiares y conocidos), seguida por otra ronda seed de 1.5 millones de dólares, gracias a la entrada de la compañía australiana Crowd Media Holdings. Además, varios clientes se han sumado al proyecto como inversores.
«La tecnología es muy poderosa (…) y tenemos un equipo muy fuerte, de Cambridge y de otras universidades», cuenta Ühss, que añade que utilizarán el dinero para investigación y contratar más gente, así como para mejorar la plataforma.
Aflorithmic Labs aún no es una compañía rentable, pero prevé serlo a finales de año.
Ühss y Lehman creen que el uso de este tipo de tecnologías en ámbitos más mainstream hará que aumente el interés de los inversores por las startups de este sector.
El uso de IA para clonar una voz es polémico debido a los problemas éticos y legales que despierta.
Para Aflorithmic Labs, esta característica personal es similar a la imagen, por lo que es necesario pagar unos derechos y tener el permiso del actor para utilizarla.
«Nosotros lo vemos como un dato sensible, tan personal como tu contraseña, tu nombre o tu dirección», defiende Ühss. «Es su derecho, es su voz».
«Es exactamente lo mismo que los derechos de imagen», incide Lehman.
«Hasta ahora no ha sido posible esto, la voz no ha sido algo que un famoso o influencer pudiese vender. Ahora sí». El CMO de la compañía especifica que es necesario detallar en los contratos los usos de esa voz y las condiciones y que los derechos de esta siempre son del actor o actriz.
La Unión Europea (UE) ya cuenta con unas directrices para que la IA se utilice de una forma fiable, que debe apoyarse en 3 componentes: una inteligencia artificial lícita que cumpla todas las leyes y reglamentos aplicables; ética, para que garantice el respeto a ciertos principios y valores, y robusta, tanto desde el punto de vista ético como social.
Lehman cree que en el futuro, las voces clonadas mediante inteligencia artificial llevarán un aviso que advierta a quien lo escuche que no está hablando una persona, de la misma forma que se hace en prensa con los publirreportajes.
Asimismo, desde Aflorithmic Labs aseguran que saben cuál es el contenido de los audios que se producen con su tecnología, por lo que no sería difícil encontrar violaciones de contrato o usos indebidos de esta.
«Nosotros sabemos el contenido, cualquiera que estén creando. Tenemos un mecanismo que nos informa de esto», explica, y cuenta que de momento solo trabajan con empresas por esta razón.
AHORA LEE: La revolución de las próstesis biónicas y cómo la inteligencia artificial planea maximizar los sentidos
TAMBIÉN LEE: Olores a través de la pantalla e inteligencia artificial para traducir en directo: así ve el CEO de Zoom el futuro de las videollamadas