
¡Increíble! Descubren el secreto detrás de la evaluación de inteligencia artificial.
SWE-Bench, el popular benchmark para evaluar la habilidad de codificación de modelos de inteligencia artificial, ha tenido toda la atención desde su lanzamiento en noviembre de 2024. Con más de 2,000 problemas de programación reales tomados de proyectos públicos en GitHub, se ha convertido en un elemento básico en el desarrollo y lanzamiento de modelos….