
¿Está la evaluación de IA en crisis? Descubre la verdad detrás de los benchmarks.
En el mundo de la inteligencia artificial, los benchmarks como SWE-Bench están en el centro de un debate creciente. Este sistema, que evalúa las habilidades de codificación de modelos de IA, ha ganado popularidad significativamente desde su lanzamiento. Sin embargo, los investigadores ahora se cuestionan si realmente están midiendo las capacidades de los modelos de…