¡Descubre cómo un nuevo enfoque está revolucionando la evaluación de la inteligencia artificial!

La evaluación de modelos de inteligencia artificial está en crisis, y un nuevo enfoque promete revolucionar la forma en que medimos sus capacidades. SWE-Bench, lanzado en noviembre de 2024, se ha convertido en un referente para evaluar habilidades de programación en modelos de IA, utilizando más de 2,000 problemas reales de código. Sin embargo, su…

Read More

Los bancos de evaluación de IA están en crisis, ¡así lo están abordando los expertos!

El auge de SWE-Bench ha revolucionado la medición de habilidades de modelos de IA, convirtiéndose en un referente popular. Sin embargo, el enfoque en la competencia por el primer puesto ha llevado a que algunos desarrolladores encuentren maneras de manipular los resultados. Esto ha suscitado preocupaciones sobre la validez de los métodos de evaluación utilizados…

Read More