
El nuevo desafío de la IA: ¿Cómo medir realmente su progreso?
SWE-Bench ha revolucionado la evaluación de modelos de IA, especialmente en programación, pero su enfoque ha sido cuestionado. Desde su inicio en 2024, este benchmark se ha convertido en un referente en Silicon Valley, siendo utilizado por grandes como OpenAI y Google. Sin embargo, expertos advierten que muchos modelos se están diseñando específicamente para sobresalir…