¡Increíble! Descubre el escándalo detrás de las pruebas de inteligencia artificial.

Desde su lanzamiento en noviembre de 2024, SWE-Bench se ha consagrado como uno de los benchmarks más utilizados para evaluar modelos de inteligencia artificial en habilidades de programación. Con más de 2,000 problemas de programación extraídos de repositorios públicos de GitHub, ha generado una intensa competencia entre empresas como OpenAI y Anthropic. Sin embargo, la…

Read More

¡Revolución en la evaluación de la IA! Descubre el escándalo detrás de SWE-Bench!

La evaluación de modelos de inteligencia artificial está en el centro de una creciente controversia, especialmente con el ascenso de benchmarks como SWE-Bench. Desde su lanzamiento en noviembre de 2024, este sistema ha sido ampliamente adoptado para medir las habilidades de programación de la IA, utilizando problemas reales extraídos de repositorios públicos en GitHub. Sin…

Read More