
Revolutionary Changes Ahead: The Future of AI Benchmarks Is Here!
El desarrollo de benchmarks para evaluar modelos de inteligencia artificial está experimentando un cambio notable. Desde el lanzamiento de SWE-Bench en noviembre de 2024, este nuevo sistema ha ganado popularidad al medir habilidades de programación a partir de más de 2,000 problemas extraídos de repositorios públicos de GitHub. Sin embargo, a medida que su uso…