
¡Increíble! Descubre el escándalo detrás de las pruebas de inteligencia artificial.
Desde su lanzamiento en noviembre de 2024, SWE-Bench se ha consagrado como uno de los benchmarks más utilizados para evaluar modelos de inteligencia artificial en habilidades de programación. Con más de 2,000 problemas de programación extraídos de repositorios públicos de GitHub, ha generado una intensa competencia entre empresas como OpenAI y Anthropic. Sin embargo, la…