
Descubre la verdad oculta detrás de los benchmarks de inteligencia artificial sorprendentes.
En el mundo de la inteligencia artificial, la manera de evaluar modelos está en el ojo del huracán. SWE-Bench, un benchmark creado para medir habilidades de programación, ha crecido en popularidad desde su lanzamiento. Sin embargo, este éxito ha destapado un problema: los modelos no siempre se evalúan por su verdadera capacidad, sino que a…