
¡Revolución en la evaluación de la IA! Descubre el escándalo detrás de SWE-Bench!
La evaluación de modelos de inteligencia artificial está en el centro de una creciente controversia, especialmente con el ascenso de benchmarks como SWE-Bench. Desde su lanzamiento en noviembre de 2024, este sistema ha sido ampliamente adoptado para medir las habilidades de programación de la IA, utilizando problemas reales extraídos de repositorios públicos en GitHub. Sin…