Todo suena natural. La dicción es buena, las palabras se entrelazan al ritmo debido y forman frases fluidas, con las pausas que uno haría al leer un texto. La entonación y la velocidad del habla también parecen humanas. Pero no lo son: estamos escuchando un audiolibro narrado por una voz sintética. Nadie se ha sentado en un estudio a grabarlo, y eso preocupa a los narradores profesionales, que ya están viendo caer sus ingresos. La industria, en cambio, cree que las voces generadas con inteligencia artificial (IA) democratizarán la publicación de audiolibros, hasta el momento solo al alcance de las grandes editoriales.
El mercado del audiolibro es todavía pequeño en España (hay entre 30.000 y 40.000 títulos publicados en castellano, frente a 200.000 en alemán o 700.000 en inglés), pero en rápida expansión. Un reciente informe de la distribuidora de contenidos digitales Demarque cifra en un 40% el crecimiento del sector en 2024 respecto al año anterior. El 80% de los usuarios apuesta por modelos de suscripción, mientras que el resto se reparte entre la venta unitaria y el préstamo bibliotecario, que el año pasado aumentó un 16%.
“Yo calculo que, para finales de esta década, en menos de cinco años, habrá un sorpasso de voces sintéticas frente a las humanas en los audiolibros. Y creo que es una previsión conservadora”. Así lo ve Javier Celaya, consultor y empresario de larga trayectoria en el sector de los podcasts y audiolibros. “Hoy en día hay publicados en todo el mundo unos 1,3 millones de audiolibros narrados por personas. Pero, al ritmo que están creciendo las producciones con IA, y fijándonos en lo que sucede en el mercado anglosajón, que es el más maduro, no tardarán en superar al resto”, opina.
“Estoy convencido de que esto va a explotar a muy corto plazo, como ya está sucediendo en EE UU”, coincide Joaquín Sabaté, consejero delegado de Ediciones Urano, una de las editoriales españolas que más están apostando por la producción de audiolibros con IA. Esta empresa familiar ha desarrollado una tecnología propia que adapta otras ya existentes a las especificidades del mundo editorial. El cliente solo tiene que entregar el libro original y un pequeño guion de una página sobre lo que busca (tipo de voz, tono, músicas, etcétera). Su herramienta, que incorpora curación humana para “asegurar cierto nivel de calidad”, puede tener listo un audiolibro en un día y medio, frente a las semanas de trabajo que suele comportar un trabajo en estudio (cada hora de narración supone entre seis y ocho horas de grabación).
Esa es la razón del éxito de las voces sintéticas: rebajan mucho los costes de producción. “Un audiolibro con narración sintética es por lo menos 10 veces más barato. En términos orientativos, un libro de unas 380 páginas puede costar entre 3.500 y 5.000 euros, que para algunos editores es muchísimo dinero. Apostar por la IA lo reduce a 200 o 300 euros”, ilustra Sabaté. “Creo que la IA democratizará los audiolibros y permitirá a los pequeños editores poder subirse a esta ola”, añade. “Como oyente, poder acceder a más contenidos me parece genial. Estoy más informado y entretenido que nunca gracias a la IA”, sostiene Celaya. “Es cierto que los profesionales se verán afectados, igual que está pasando ya con los traductores o los ilustradores. Las voces humanas se seguirán demandando, pero para productos de alta gama”.
Antonio Abenojar es un pionero en el mundo de la narración de audiolibros. “Yo empecé hace 40 años con la ONCE. Para mí fue una escuela”, recuerda. Este actor de doblaje, locutor y director de 62 años corrobora que la IA ha rebajado sus ingresos, “tirando a la baja, un 50%” en los últimos dos o tres años. En los últimos tiempos se ha especializado en la narración de documentales, donde de momento no tiene problemas. “Todo lo que no exige un componente emocional se lo lleva la IA. Ya lo estamos viendo e irá a más”, se lamenta.
“Todavía tienen que mejorar, pero la calidad que se ha conseguido en los últimos dos años en las voces sintéticas es espectacular. Creo que las voces humanas no desaparecerán de los audiolibros, especialmente en ficción, donde la gente quiere que haya más pasión”, subraya Idoia Cantolla, cofundadora de VoicepoweredAI, un estudio de producción que crea todo tipo de contenidos sonoros, como podcasts, audio series o audiolibros, con IA. “Pero hemos hecho pequeños estudios de mercado que nos dicen que al consumidor no le importa tanto el narrador cuando escucha un ensayo”.
Otras empresas, como Storytel, aprovechan la IA para aportar nuevas funcionalidades al lector. En sus audiolibros, esta plataforma ofrece la opción de alternar entre diferentes voces, tanto sintéticas como humanas, para personalizar la experiencia auditiva. “Las voces de IA están concebidas para complementar, no para reemplazar a los narradores humanos. Esta función, Voice Switcher, ya está disponible para más de 100 títulos en inglés, polaco, sueco, finlandés y danés”, comenta Maribel Riaza, responsable de adquisición de contenidos de la plataforma. La ejecutiva cree que, dado que tienen comprobado que un porcentaje significativo de oyentes ha abandonado libros por no gustarles la voz del narrador, el Voice Switcher puede ayudar a retener esos usuarios.
¿Cómo saber si el narrador es una IA?
Las voces sintéticas son ya muy realistas. Si bien es cierto que se concentran en los audiolibros de no ficción, donde los matices de la interpretación tienen menos peso relativo, también lo es que cuesta mucho distinguir si el ensayo que estamos escuchando nos lo está leyendo una persona o una máquina. Algunas plataformas y/o editoriales lo ponen más difícil todavía al no señalizar si un contenido ha sido narrado de forma tradicional o no.
“Hay casos sangrantes en los que una editorial camufla el uso de la IA atribuyéndole un nombre humano. No solo utilizan voces artificiales para sus audiolibros, sino que, además, identifican a toda esa gama de voces con un mismo apellido”, se queja Felipe Garrido, locutor y actor de doblaje. “Esto, además de ser éticamente una aberración, es negarle al consumidor la información de que está ante una voz artificial”, añade.
La Publishers Association de Reino Unido ha sacado una guía para marcar los audiolibros narrados por voces generadas por IA. En ella se distingue entre “voces de IA”, las desarrolladas de forma sintética a partir de un número indeterminado de ejemplos reales, y las “réplicas autorizadas de voz”, construidas a través de la cesión licenciada de muestras de una sola voz. La guía dice también que “debería ser responsabilidad del editor asegurarse de que la narración con IA está debidamente señalizada en los metadatos del título”. La asociación considera apropiado avisar de ello si al menos el 10% de la narración ha sido realizada con herramientas sintéticas. Para Jon Watt, presidente del Grupo de Editores de Audio de Reino Unido, dada la proliferación de audiolibros narrados por IA, es vital que la industria tenga un lenguaje internacional que permita a los editores, minoristas y consumidores distinguir entre diferentes tipos de narración.
Eso no es lo que está sucediendo en España, al menos de momento. “Nadie se atreve a ser el primero en decir que sus audiolibros son narrados por voces generadas con IA”, corrobora el directivo de una importante empresa editora de contenidos en audio. Celaya opina que “el miedo de muchas plataformas es que, si dicen que sus audiolibros están narrados por IA, la gente pensará que el producto es de mala calidad. Sucede como con el sector de la alimentación: si los consumidores supiéramos todos los ingredientes de todo lo que comemos, a lo mejor dejaríamos de comprar algunos productos, aunque nos gusten mucho”.
Pero eso tendrá que cambiar pronto. El Anteproyecto de ley de gobernanza de la IA, actualmente en fase de consulta pública, obliga a “marcar los resultados de salida [generados por IA] de tal modo que pueda detectarse su naturaleza artificial”, y establece fuertes multas en caso de incumplimiento. ¿Afecta eso a la narración de audiolibros? “Sí, porque la voz es una interpretación, tanto si es una voz existente y reconocible, como si es totalmente nueva”, aclara Borja Adsuara, jurista especializado en derecho digital.
“Distribuimos un número limitado de títulos narrados con tecnología de voz generada por IA a través de alianzas selectivas con editoriales en España, Italia, Francia y Japón”, señala un portavoz de la plataforma Audible, propiedad de Amazon, que también está en “conversaciones activas con editoriales interesadas en aprovechar la IA para convertir sus libros en audio”. En su caso, aseguran, todos los títulos narrados por voces sintéticas “están claramente identificados”.
Las editoriales no son ajenas a los problemas legales que les puede aportar la publicación de audiolibros hechos con IA. Más allá de marcarlos, hay otra cuestión clave: los derechos sobre esas voces sintéticas. “La trazabilidad es muy importante, hay que dejar bien definida la autoría, quién es el narrador de cada pieza. El año pasado constituimos la primera agencia de representación de voces clonadas”, explica Sabaté, quien explica el funcionamiento de esa agencia: “Conseguimos que narradores profesionales se inscriban en ella y ofrezcan su voz a cambio de royalties cada vez que se use, y aportamos a la editorial un certificado de que esa voz es una réplica autorizada y está protegida”.