
¡Descubre cómo un nuevo enfoque está revolucionando la evaluación de la inteligencia artificial!
La evaluación de modelos de inteligencia artificial está en crisis, y un nuevo enfoque promete revolucionar la forma en que medimos sus capacidades. SWE-Bench, lanzado en noviembre de 2024, se ha convertido en un referente para evaluar habilidades de programación en modelos de IA, utilizando más de 2,000 problemas reales de código. Sin embargo, su…