Descubre el nuevo escándalo detrás de la evaluación de modelos de inteligencia artificial.

Desde su lanzamiento en noviembre de 2024, SWE-Bench se ha convertido en un estándar de referencia crucial para evaluar modelos de inteligencia artificial, especialmente en habilidades de codificación. Sin embargo, a medida que este benchmark gana prominencia, surge una preocupación creciente sobre su efectividad real. Investigadores advierten que los modelos están siendo diseñados para obtener…

Read More