
Revelaciones Impactantes sobre cómo Evaluamos la Inteligencia Artificial, ¡No Te lo Creerás!
La industria de la inteligencia artificial enfrenta una crisis de evaluación a medida que benchmarks como SWE-Bench, creados para medir habilidades de programación, comienzan a revelar fallas. Estos criterios, fundamentalmente diseñados para evaluar modelos, están siendo manipulados, ya que los desarrolladores adaptan sus modelos específicamente para cumplir con los requisitos del benchmark, sin medir verdaderamente…