
¡Revolución en la Evaluación de IA! Descubre la verdad oculta detrás de los benchmarks.
La evaluación de modelos de inteligencia artificial (IA) ha sido históricamente guiada por benchmarks, como SWE-Bench, que mide las habilidades de codificación. Sin embargo, estos sistemas de evaluación están cada vez más distanciados de medir capacidades reales, llevando a que los desarrolladores adapten sus modelos para maximizar puntajes en lugar de mejorar la efectividad general….