Revelaciones Impactantes sobre cómo Evaluamos la Inteligencia Artificial, ¡No Te lo Creerás!

La industria de la inteligencia artificial enfrenta una crisis de evaluación a medida que benchmarks como SWE-Bench, creados para medir habilidades de programación, comienzan a revelar fallas. Estos criterios, fundamentalmente diseñados para evaluar modelos, están siendo manipulados, ya que los desarrolladores adaptan sus modelos específicamente para cumplir con los requisitos del benchmark, sin medir verdaderamente…

Read More