Tónica: Clonación y localización de voz con IA
Orador: Dr. Winn Worawutkunchai , Fundador y CEO Grupo BOTNOI
Evento: SCBX Unlocking AI EP1 , Tailandia Camino hacia las oportunidades de IA
Colaboración: SCBX y Insiderly.ai
Lugar: SCBX NextTech, Siam Paragon, 4ª planta
La IA actual tiene muchos poderes, no solo hacer preguntas y obtener respuestas de repente.
Pero también puede crear imágenes. Puedes crear cosas introduciendo algunas palabras clave.
La voz en sí misma también es algo que la IA puede crear, lo que puede sonar desalentador, pero si se usa positivamente para ayudar a los demás, puede ser de gran beneficio.
BOTNOI es un emprendedor que utiliza la IA para crear voces, clones o clones de voces para hacer que sucedan cosas buenas.

El Dr. Wynn Worawutchai, fundador y director ejecutivo de BOTNOI Group, presentó el desarrollo de la clonación de voz dando el ejemplo de Andrew Ng, un experto en IA que descubrió que alguien clonó su voz en Linkedin. ¿Qué voz es clonada por la IA?
Como resultado, la gente apenas puede distinguir qué voz es la verdadera voz de Andrew Ng.
Actualmente en algunos sitios web, tales como: TailandésPBS Vaya más allá ofreciendo un servicio de "Leer para escuchar", que clona la voz del presentador de noticias y presiona para leer las noticias. Es adecuado para personas que desean escuchar el sonido en lugar de leer el texto.
BOTNOI clonó la voz de un reportero de ThaiPBS y la hizo clic para leer las noticias en el sitio web como si realmente estuviera leyendo estas noticias.
El truco es asombroso, pero ThaiPBS también ha sido ampliamente criticado porque, a pesar de que usa BOTNOI para hacer que la IA lea noticias, la IA todavía no puede leer palabras abreviadas, como el Inspector General, lo que hace que la gente malinterprete que los periodistas lo leyeron mal.
Pero muestra lo suave que es la clonación del sonido, por lo que al final tuve que incluir un descargo de responsabilidad de que se trata de una voz generada por IA, no de un locutor real. Evite malentendidos
último Los seres humanos siempre han tratado de imitar a la naturaleza, incluyendo la construcción de aviones en forma de pájaros, espadas y cuchillos en forma de tigres.
Algunas cosas que solían tener limitaciones, como construir un automóvil que no puede conducirse solo, ya no son hoy un obstáculo que puede crear un cerebro para un automóvil y luego conducirlo por sí solo sin fuerza.

BOTNOI aplica este concepto a la generación de sonido. Trata de imitar la estructura del cerebro humano hasta llegar a la ecuación de entrada y salida que produce sonidos que coinciden con la realidad.
El Dr. Wynn dijo que los humanos no recordamos nada antes de los 4 años.
Él mismo trató de observar cómo su hijo interactuaba con los sonidos a su alrededor. Lo que aprendió a esa edad fue que el cerebro de los niños que escuchan la voz de su madre intentará conectar lo que oyen y ven, y será un aprendizaje que aplicará a la obra de Botnoi.
Si BOTNOI quiere clonar la voz de alguien, hará que esa persona lea alrededor de 200 oraciones de texto y luego importará su voz y el texto al sistema para que la IA lo aprenda.
Aunque los resultados de los primeros experimentos no obtuvieron un buen sonido. Sin embargo, cuando se mejora, la calidad mejora significativamente.
Además de la clonación de voz, también existe el deepfake, o clonación de la cara del clon de voz de una persona que puede imitar el movimiento de la boca de la persona. Es posible que la persona tampoco haya dicho la palabra, lo cual es muy sutil.
BOTNOI también ha desarrollado la tecnología hasta el punto de hacer la voz de una persona Hablar otro idioma manteniendo un acento y manteniendo la propia identidad, que es algo de lo que estar orgulloso y sobre lo que construir. Se puede utilizar en el doblaje de películas.
Si la tecnología avanza mucho, puede ser posible hacer la voz de un héroe en una película de Hollywood. Ser capaz de hablar tailandés manteniendo su propio acento, etc.
Otro caso de estudio que encontramos fue que durante la pandemia de COVID-19, las ventas de las pequeñas tiendas disminuyeron, por lo que Cadbury inventó un modelo que utilizaba actores famosos de Bollywood para ayudar a publicitar las tiendas y aumentar las ventas.
Lo que sucedió fue que se tomó la voz del famoso actor Shah Rukh Khan e hizo que la gente prestara mucha atención. Porque puede modificar el sonido y adaptar la imagen para ser específico en la venta de diversos productos sin límites.
Sin embargo, también hay que tener cuidado con los casos de mal uso. A pesar de ser el propio creador, el Dr. Wynn ha sido clonado por otros para engañar a los demás.
Se ha convertido en una lección para BOTNOI. ¿Cómo será esto? Especialmente en una época en la que las pandillas de los centros de llamadas son desenfrenadas todos los días.
Hoy en día, la prevención puede seguir siendo difícil y hay pocas formas efectivas de hacerlo. Una de las formas de hacer esto podría ser ocultar la marca de agua en la voz de la IA a una frecuencia que los humanos no pueden escuchar, pero también necesita encontrar una forma más suave. Porque si la persona que tiene la intención de usar la voz en una estafa ya puede eliminar la frecuencia y hacer un mal uso de ella de todos modos.
El Dr. Wynn espera que todas las agencias relevantes o los desarrolladores de IA sean conscientes de esto y ayuden a que la voz clonada se use de la manera correcta. Además de llenar el vacío de la delincuencia tanto como sea posible.
Crédito de la imagen : SCBX