A principios de este mes, fui testigo de un avance tecnológico extraordinario. Durante una conferencia de prensa previa al CES, Nvidia presentó una demostración de su microservicio Ace, una suite de IA capaz de crear personajes completamente doblados por voz. Me sorprendió ver cómo un presentador de la demostración interactuaba con un NPC dentro del juego a través de un micrófono, recibiendo respuestas en tiempo real y con matices realistas del personaje digital. Era como algo sacado de la ciencia ficción, pero surgía una pregunta: ¿cómo era esto posible?
La respuesta de Nvidia fue vaga, afirmando que no había una "respuesta sencilla". Esta ambigüedad provocó intensas especulaciones en las redes sociales, y muchos usuarios expresaron su preocupación de que Ace pudiera haberse entrenado con contenido que Nvidia no poseía. Aunque Nvidia aclaró que solo utiliza datos obtenidos legalmente, la incertidumbre persistió. Los jugadores seguían preocupados, enfrentándose a problemas éticos y artísticos relacionados con esta tecnología.
Entre los observadores se encontraba Purnendu Mukherjee, un ingeniero de software y la mente detrás de la tecnología de IA en el centro de esta controversia. Es el fundador de Convai, la empresa de IA generativa que impulsa la demostración Kairos de Nvidia en CES 2024. En lugar de permanecer en silencio ante la reacción negativa, Mukherjee aprovechó la oportunidad para aclarar malentendidos de manera directa.
En una extensa entrevista, Mukherjee abordó diversas preocupaciones éticas sobre herramientas de IA como su creación. Discutió desde miedos sobre la pérdida de empleos hasta inquietudes de que la IA pudiera socavar el toque humano en el arte. Contrariamente a estos temores, Mukherjee imagina un futuro donde los artistas colaboren con la IA para enriquecer sus expresiones creativas. Sin embargo, sus perspectivas sobre el uso de datos plantean preguntas adicionales.
La fascinación de Mukherjee por la mente humana comenzó en su infancia y lo llevó a explorar la IA cuando llegó a la secundaria. Inicialmente desalentado por sistemas rígidos y basados en reglas, su interés se reavivó en 2015 cuando se sumergió en el aprendizaje profundo en un laboratorio en India. Tras realizar estudios de posgrado y adquirir experiencia en Nvidia, lanzó Convai en abril de 2022, autofinanciando la startup durante los primeros diez meses.
Como gamer de toda la vida, Mukherjee creció jugando títulos competitivos como Counter-Strike en un cibercafé local, donde imaginó cómo la IA podría mejorar la experiencia de juego. Lo que comenzó como una crítica humorística a los rudimentarios bots de juego se ha transformado en una innovadora tecnología. La tecnología de Convai utiliza múltiples procesos de IA para generar NPCs completamente doblados por voz que pueden responder dinámicamente a las interacciones de los jugadores, buscando crear experiencias de juego más atractivas.
"Consideren títulos como Baldur's Gate 3 o The Witcher", explica Mukherjee. "Estos juegos tienen narrativas ricas y arcos de personajes profundos. Sin embargo, los jugadores a menudo no pueden explorar plenamente estas historias debido a las limitadas opciones de diálogo con los NPCs. Con la tecnología actual, podemos dar vida a los NPCs, permitiendo que interactúen con los jugadores de manera más auténtica y ofrezcan una comprensión más profunda de la historia."
Este sentimiento abre un debate más amplio, mientras Mukherjee aborda preocupaciones interconectadas sobre la IA. Al considerar si Baldur’s Gate 3 aún resonaría sin su diálogo cuidadosamente elaborado, exploramos la compleja relación entre el contenido generado por máquinas y la integridad artística. Mukherjee enfrenta el escepticismo, enfatizando que la IA no reemplaza a los artistas, sino que es una herramienta que requiere su intervención.
"Creo que los diseñadores narrativos estarán en mayor demanda, no menos," dice, delineando cómo la IA podría generar roles adicionales para escritores. "Los escritores deben crear historias de fondo y narrativas, mientras desarrollan conjuntos de pruebas robustos. Para asegurar que un NPC basado en IA generativa se integre sin problemas en un juego multimillonario, se necesitan cientos o miles de interacciones, idealmente elaboradas por el escritor original de la narrativa. Nuestra plataforma requiere que los usuarios proporcionen una extensa historia de fondo y documentos, lo que resulta en una cantidad de escritura significativamente mayor que la habitual."
Esta perspectiva se convierte en un tema recurrente en nuestro diálogo. Mukherjee afirma repetidamente que las herramientas de IA generativa requerirán un número aún mayor de artistas para entrenarse eficazmente. Sugiere que una IA mejorada aumentará la calidad de los juegos, lo que llevará a un crecimiento en las ventas y a mayores salarios para los actores de voz, quienes juegan roles esenciales en el desarrollo de estas herramientas avanzadas. Su perspectiva es optimista, especialmente dada la actual ola de despidos en la industria de los videojuegos.
Mukherjee reconoce la realidad de estos despidos, pero enmarca el auge de la IA generativa como parte de una evolución tecnológica natural. Cree que los creadores deberán adaptarse y abrazar sinergias colaborativas con la IA, en lugar de verla como una amenaza.
"Sigues siendo el creador, el maestro y el controlador de ello," afirma.
A medida que avanzamos, pregunto sobre artistas que crean juegos con pasión como expresión de su arte. ¿Es realmente tan sencillo como sugerir que se conviertan en ingenieros de IA? Mukherjee responde que se trata más bien de reconocer la intersección del arte y la tecnología.
"La IA se asemeja a herramientas como Adobe Photoshop o Unreal Engine", explica. "Sí, los juegos existían antes de estas tecnologías, y los creadores aún los elaboraban. Pero, ¿puedes producir arte excepcional usando Unreal Engine? Absolutamente. El detalle minucioso en la edición de video en 3D se mantiene, incluso con contenido generado por IA. La esencia de la artesanía sigue presente; simplemente está mejorada por herramientas más poderosas. Sigues siendo el creador, el que da forma a tu visión."
Mukherjee claramente ve la IA como un activo para los artistas, en lugar de un sustituto. Reitera puntos clave sobre la dependencia de la IA en la creatividad humana mientras aborda preocupaciones comunes. Sin embargo, la cuestión del uso de datos sigue siendo polémica. Mientras que los críticos argumentan que los modelos de IA entrenados con su trabajo están robando propiedad intelectual, algunos desarrolladores insisten en que se necesita un gran volumen de datos, incluyendo material protegido por derechos de autor, para entrenar modelos efectivos. Mukherjee sugiere que los creadores deberían ser compensados cuando sus contribuciones forman parte de los conjuntos de datos de entrenamiento de la IA.
"Debe haber un sistema para asegurar que las personas que contribuyen con datos significativos sean compensadas de manera justa," afirma. "Ya sea el New York Times o Reddit, la licencia adecuada es esencial. Es un problema complejo, pero creo que esta es la dirección que debemos seguir, especialmente para aplicaciones comerciales."
Cuando se le cuestiona sobre las prácticas de datos de Convai, Mukherjee enfatiza que la empresa solo utiliza datos para los cuales tiene derechos. Explica que sería imposible extraer aleatoriamente los datos específicos requeridos, dado que la tecnología está abriendo un nuevo campo. Sin embargo, rápidamente aborda una paradoja en este argumento.
"Utilizamos modelos base de fuentes como OpenAI o modelos de código abierto con licencia," aclara. "Estos deben ser de origen ético y estar licencias comercialmente. Somos meticulosos en estos procesos. De hecho, ¡nuestro sistema a menudo requiere más actores de voz, no menos!"
La mención de OpenAI plantea algunas preocupaciones, especialmente dada su actual lucha legal derivada de la demanda del New York Times sobre el supuesto "uso ilegal" de su contenido para entrenar bots como ChatGPT. OpenAI reconoce la dificultad de entrenar modelos de IA avanzados sin utilizar materiales protegidos por derechos de autor. Dado que el modelo de Convai se basa en el de OpenAI, presiono a Mukherjee sobre cómo puede garantizar que no se usó contenido protegido en su entrenamiento.
Mukherjee hace una distinción sutil: Convai no utiliza directamente los datos de OpenAI, sino los modelos desarrollados a partir de ellos. Esta nuanza puede sugerir un vacío legal. Mukherjee cree que, dado que Convai se abstiene de utilizar directamente los datos, permanece en cumplimiento con respecto a los derechos de autor. Sin embargo, cuando se le pide que aclare la distinción entre utilizar modelos en lugar de usar conjuntos de datos potencialmente protegidos dentro de esos modelos, su explicación se vuelve menos clara.
"Es ambiguo qué modelo contiene qué datos," admite. "No tenemos esa claridad. Por ejemplo, si OpenAI proporciona cinco modelos, Nvidia cuatro y Meta tres, simplemente usamos los que mejor se ajustan a nuestras necesidades sin conocer sus orígenes de datos exactos."
El razonamiento de Mukherjee implica que Convai no es responsable de cómo otros modelos gestionan sus datos. Su enfoque se centra únicamente en garantizar que las prácticas de datos de Convai sean éticas, mientras espera que los modelos fundamentales también cumplan con las normas. Sin embargo, su afirmación anterior de que Convai trabajaría con los modelos más éticos parece incongruente, especialmente dadas las cuestiones legales que rodean a los que actualmente emplean.
Estas discusiones complejas pueden aclarar la renuencia inicial de Nvidia para proporcionar respuestas sobre el uso de datos. La realidad es que todas estas tecnologías se construyen unas sobre otras. Ace depende de Convai, que está basado en el trabajo de OpenAI, una estructura en capas que dificulta identificar el origen de los datos en los niveles inferiores. La afirmación de Nvidia de que no hay "respuesta sencilla" sobre el uso de datos es precisa, pero una explicación más honesta podría ser que carecen de un conocimiento completo del sistema en su totalidad. Si bien es poco probable que Nvidia enfrente un escrutinio judicial, una derrota legal significativa para OpenAI podría tener repercusiones de gran alcance.
A medida que desglosamos estos detalles intrincados, planteo el tema de la regulación. ¿Debería el gobierno intervenir para establecer directrices para la tecnología de IA? Mukherjee reconoce la necesidad de cierta regulación, pero enfatiza la importancia de un enfoque medido. Le preocupa que restricciones excesivas puedan sofocar la innovación y sigue convencido de que los beneficios de la IA superan sus posibles desventajas.
"¿Qué es la IA hoy en día? Piénsalo como un coche," compara. "Los coches pueden ser peligrosos; pueden ocurrir accidentes. Sin embargo, los conducimos todos los días porque los beneficios generales son significativos. Veo la IA de la misma manera. Necesitaremos regulaciones sobre su uso, así como regulamos cómo conducir un vehículo. Consecuencias legales se aplicarán a quienes la malinterpreten."
El cambio es inevitable, y el cambio a menudo trae incomodidad.
A pesar de algunas comparaciones sombrías, Mukherjee mantiene una perspectiva esperanzadora sobre la IA. Cree sinceramente que traerá beneficios sustanciales para la sociedad, siempre que las empresas continúen priorizando el bienestar humano. Visualiza un futuro donde herramientas como Nvidia Ace fortalezcan los talentos de los artistas en lugar de reemplazarlos. En lugar de temer un futuro dominado por máquinas, reconoce la necesidad de adaptación.
"El cambio va a suceder, y va a afectar a las personas," reconoce Mukherjee. "Esto recuerda a cambios tecnológicos pasados. Con cada cambio significativo, surgen nuevas oportunidades laborales, mientras que roles más antiguos pueden decrecer. Considera la transición de las carretas tiradas por caballos a los automóviles. Los involucrados en la industria equina tuvieron que adaptarse. La IA generativa abrirá nuevos caminos para la creatividad y la innovación: está lista para beneficiar a la humanidad en su conjunto, pero también requerirá cambios en el empleo tradicional."
Al final de nuestra entrevista, Mukherjee expresó su gratitud por la oportunidad de aclarar malentendidos sobre Convai. Notó que gran parte de la cobertura mediática sobre Nvidia Ace pasaba por alto las contribuciones de su empresa. Hay un rastro de frustración en su tono mientras busca el reconocimiento que le corresponde. Reflexiono sobre la ironía de esta situación, comparando su experiencia con la de los artistas que ven cómo su trabajo es explotado por herramientas de IA.
"¡Esa es una observación convincente!" responde con una risa, posiblemente ganando una nueva perspectiva sobre el tema.