Hoy, Cognition, una startup de inteligencia artificial respaldada por Founders Fund de Peter Thiel y líderes tecnológicos como el exejecutivo de Twitter Elad Gil y el cofundador de DoorDash, Tony Xu, presentó “Devin”, un ingeniero de software autónomo completamente independiente.
A diferencia de los asistentes de codificación existentes, como GitHub Copilot, Devin se distingue al gestionar proyectos de desarrollo completos, desde la codificación y la depuración, hasta la ejecución, demostrando sus capacidades en plataformas como Upwork.
El lanzamiento de Devin marca una evolución clave en el desarrollo de software asistido por IA, proporcionando a los ingenieros un trabajador de IA integral en lugar de una simple herramienta para escribir fragmentos de código. Actualmente, Devin no está disponible al público; se ha otorgado acceso limitado a un grupo selecto de usuarios, incluida la periodista de Bloomberg Ashlee Vance, quien compartió sus experiencias.
¿Qué puede hacer Devin?
El CEO de Cognition, Scott Wu, detalló las capacidades de Devin en una publicación de blog, resaltando su acceso a herramientas esenciales para desarrolladores, como un editor de código y un navegador, todo dentro de un entorno seguro y aislado. Devin puede abordar tareas de ingeniería complejas, que normalmente requieren tomar miles de decisiones.
Los usuarios ingresan simples comandos en lenguaje natural en la interfaz de chat de Devin, que elabora un plan paso a paso para realizar la tarea. Devin escribe código de forma autónoma, resuelve problemas, lleva a cabo pruebas y proporciona actualizaciones en tiempo real, permitiendo a los usuarios seguir el progreso del proyecto sin inconvenientes.
Si los usuarios notan discrepancias, pueden interactuar directamente a través de la interfaz de chat para emitir comandos, lo que permite a los equipos de ingeniería delegar tareas rutinarias y centrarse en trabajos creativos y de mayor nivel.
Devin ejemplifica un futuro transformador para el desarrollo de software, donde los trabajadores de IA operan bajo supervisión humana.
Versatilidad en tareas de desarrollo
Según las demostraciones de Wu, Devin sobresale en diversas tareas, incluyendo el despliegue completo de aplicaciones y sitios web, la identificación y resolución de errores, e incluso proyectos avanzados como el ajuste fino de modelos de lenguaje grande vinculados a repositorios de investigación en GitHub.
En una instancia, Devin aprendió de una publicación en un blog para producir imágenes con mensajes ocultos, mientras que en otra, gestionó con éxito un proyecto de Upwork relacionado con el desarrollo de un modelo de visión por computadora. En la prueba SWE-bench—una evaluación que utiliza problemas de GitHub en el mundo real—Devin resolvió un 13.86% de los desafíos de manera autónoma. En comparación, Claude 2 resolvió un 4.80%, mientras que SWE-Llama-13b y GPT-4 lograron solucionar un 3.97% y un 1.74%, respectivamente, todos requiriendo guía humana.
La tecnología central permanece discreta
La presencia de IA en el desarrollo de software no es nueva; herramientas como GitHub Copilot, StarCoder y Codeium han estado disponibles durante mucho tiempo. Sin embargo, la mayoría se centra en complementar la codificación en lugar de gestionar proyectos enteros de forma independiente. Devin de Cognition da un salto significativo al funcionar como un ingeniero de IA completamente autónomo.
Aunque aún se encuentra en fase de pruebas, la capacidad de Devin para navegar por proyectos de ingeniería multifacéticos de manera autónoma lo distingue. Cognition no ha revelado si emplea un modelo propio o una solución de terceros, pero enfatiza los avances en razonamiento y planificación a largo plazo como clave para su funcionalidad.
La empresa está ampliando su capacidad y extendiendo el acceso anticipado a usuarios selectos. Los interesados en mejorar sus capacidades de ingeniería pueden contactarse por correo electrónico, con un acceso más amplio previsto para el futuro.
Cognition sugiere que la codificación es "solo el comienzo", insinuando planes para desarrollar agentes de IA similares en otros campos. Hasta ahora, la empresa ha asegurado $21 millones en financiación.