
Descubren los secretos ocultos detrás de las pruebas de inteligencia artificial más populares.
El benchmark SWE-Bench, lanzado en noviembre de 2024, se ha convertido rápidamente en una herramienta clave para evaluar las habilidades de programación de modelos de inteligencia artificial. Con más de 2,000 problemas de programación extraídos de GitHub, su popularidad ha impulsado a empresas como OpenAI y Google a considerar su puntuación como una referencia estándar….