
¿El sistema de evaluación de IA está fallando? ¡Descubre la verdad oculta!
En el mundo de la inteligencia artificial, el SWE-Bench se ha convertido en uno de los test más populares para evaluar las habilidades de codificación de los modelos. Sin embargo, a medida que su uso se ha expandido, han surgido preocupaciones sobre la efectividad de estos benchmarks. Modelos de compañías como OpenAI, Anthropic y Google…