
¡El Escándalo Detrás de los Nuevos Benchmarks de IA que Nadie Quería Que Supieras!
Desde su lanzamiento en noviembre de 2024, SWE-Bench se ha convertido en uno de los principales referentes para evaluar las habilidades de codificación de modelos de inteligencia artificial. Utilizando más de 2,000 problemas de programación reales recopilados de GitHub, ha sido ampliamente adoptado por gigantes de la IA como OpenAI y Google. Sin embargo, a…