
Los bancos de evaluación de IA están en crisis, ¡así lo están abordando los expertos!
El auge de SWE-Bench ha revolucionado la medición de habilidades de modelos de IA, convirtiéndose en un referente popular. Sin embargo, el enfoque en la competencia por el primer puesto ha llevado a que algunos desarrolladores encuentren maneras de manipular los resultados. Esto ha suscitado preocupaciones sobre la validez de los métodos de evaluación utilizados…