¡Revolución en la evaluación de IA! Descubre el secreto detrás del nuevo benchmark SWE-Bench.

Desde su lanzamiento en noviembre de 2024, SWE-Bench ha emergido como uno de los principales benchmarks para evaluar las habilidades de programación de modelos de IA. Con más de 2,000 problemas de programación extraídos de repositorios públicos de GitHub, ha establecido un estándar que muchos desarrolladores buscan alcanzar. Sin embargo, esta carrera por el puntaje…

Read More