
Descubre el escándalo oculto detrás de los nuevos benchmarks de IA que todos temen.
Desde su lanzamiento en noviembre de 2024, SWE-Bench ha revolucionado la evaluación de modelos de IA, convirtiéndose en uno de los estándares más aclamados en el sector. Este benchmark se enfoca en evaluar habilidades de programación utilizando más de 2,000 problemas reales de proyectos en Python. Sin embargo, a medida que su popularidad ha crecido,…