
¡Descubre el escándalo detrás de la evaluación de modelos de IA que sacude Silicon Valley!
Silicon Valley se enfrenta a una crisis de evaluación en inteligencia artificial. Con el auge de SWE-Bench en 2024, un benchmark diseñado para evaluar la habilidad de codificación de los modelos de IA, las prácticas de evaluación se han desviado de criterios sinceros y validos. A medida que se crea competitividad, los desarrolladores comienzan a…