- Ha estableciendo un nuevo estado del arte en el punto de referencia de codificación SWE-bench
Debemos conocer a Devin, el primer ingeniero de software de IA totalmente autónomo del mundo.
Devin es un compañero de equipo incansable y hábil, igualmente listo para construir junto a ti o completar tareas de forma independiente para que las revises.Con Devin, los ingenieros pueden centrarse en problemas más interesantes y los equipos de ingeniería pueden esforzarse por alcanzar objetivos más ambiciosos.
Las capacidades de Devin:
Con nuestros avances en razonamiento y planificación a largo plazo, Devin puede planificar y ejecutar tareas de ingeniería complejas que requieren miles de decisiones.
Devin puede recordar el contexto relevante en cada paso, aprender con el tiempo y corregir errores.
También hemos equipado a Devin con herramientas de desarrollo comunes, incluido el shell, el editor de código y el navegador dentro de un entorno informático aislado: todo lo que un ser humano necesitaría para realizar su trabajo.
Finalmente, le hemos dado a Devin la capacidad de colaborar activamente con el usuario.
Devin informa sobre su progreso en tiempo real, acepta comentarios y trabaja con usted a través de opciones de diseño según sea necesario.
Aquí hay una muestra de lo que Devin puede hacer:
- Devin puede aprender a utilizar tecnologías desconocidas.
Después de leer una publicación de blog, Devin ejecuta ControlNet en Modal para producir imágenes con mensajes ocultos para Sara.
- Devin puede crear e implementar aplicaciones de un extremo a otro.
- ¡Devin crea un sitio web interactivo que simula el Juego de la Vida!
- Agrega gradualmente funciones solicitadas por el usuario y luego implementa la aplicación en Netlify.
- Devin puede encontrar y corregir errores de forma autónoma en las bases de código.
Devin ayuda a Andrew a mantener y depurar su libro de programación competitiva de código abierto.
- Devin puede entrenar y perfeccionar sus propios modelos de IA.
Devin configura un ajuste fino para un modelo de lenguaje grande con solo un enlace a un repositorio de investigación en GitHub.
- Devin puede solucionar errores y solicitudes de funciones en repositorios de código abierto.
- Con solo un enlace a un problema de GitHub, Devin realiza toda la configuración y recopilación de contexto que se necesita.
- Devin puede contribuir a repositorios de producción maduros.
Este ejemplo es parte del benchmark SWE-bench. Devin resuelve un error con cálculos de logaritmos en el sistema de álgebra sympy de Python.
Devin configura el entorno del código, reproduce el error y codifica y prueba la solución por sí solo.
¡Incluso intentamos darle a Devin trabajos reales en Upwork y también pudo hacerlos!
Aquí , Devin escribe y depura código para ejecutar un modelo de visión por computadora.
Devin toma muestras de los datos resultantes y compila un informe al final.
La actuación de Devin
Evaluamos Devin en SWE-bench , un punto de referencia desafiante que pide a los agentes resolver problemas de GitHub del mundo real que se encuentran en proyectos de código abierto como Django y scikit-learn.
Devin resuelve correctamente el 13,86 %* de los problemas de principio a fin, superando con creces el 1,96 % anterior.
Incluso cuando se les dan los archivos exactos para editar, los mejores modelos anteriores solo pueden resolver el 4,80% de los problemas.
*Devin fue evaluado en un subconjunto aleatorio del 25% del conjunto de datos.
Devin no recibió ayuda, mientras que todos los demás modelos recibieron asistencia (lo que significa que al modelo se le dijo exactamente qué archivos debían editarse).
Planeamos publicar un informe técnico más detallado pronto; permanezcan atentos para obtener más detalles.
Acerca de la cognición
Somos un laboratorio de IA aplicada enfocado al razonamiento. Estamos
creando compañeros de equipo de IA con capacidades que van mucho más allá de las herramientas de IA existentes en la actualidad. Al resolver el razonamiento, podemos desbloquear nuevas posibilidades en una amplia gama de disciplinas: el código es solo el comienzo. Queremos ayudar a personas de todo el mundo a convertir sus ideas en realidad
Somos un laboratorio de IA aplicada enfocado al razonamiento.
Estamos creando compañeros de equipo de IA con capacidades que van mucho más allá de las herramientas de IA existentes en la actualidad. Al resolver el razonamiento, podemos desbloquear nuevas posibilidades en una amplia gama de disciplinas: el código es solo el comienzo.
Queremos ayudar a personas de todo el mundo a convertir sus ideas en realidad.
Con información de: IA Academy News.