
El impactante problema con las pruebas de inteligencia artificial que no te imaginas
La evaluación de modelos de inteligencia artificial ha sido un pilar en la industria tecnológica, pero ha surgido un problema considerable con los métodos utilizados. Un ejemplo destacado es el benchmark SWE-Bench, creado para medir las habilidades de programación de modelos de IA, que ha llevado a la manipulación del sistema y no refleja con…