Код
SWE-bench Verified
Полное сравнение 20 моделей: процент реальных GitHub-issues, которые модель исправила автономно (SWE-bench Verified, 500 задач).
Данные обновлены: 20.06.2026
Источники
Бенчмарки публикуются авторами тестов. Методология различается; цифры не заменяют оценку надёжности в каталоге. Перед выбором проверяйте первоисточник.