Samples · swe_bench.swe_bench_lite
KI-Auswertung
Generiert 2026-05-11 19:03 · claude-sonnet-4-6Zusammenfassung
Der Benchmark liefert kein verwertbares Ergebnis: Alle 10 Stichproben endeten mit einem Fehler, es gibt weder Erfolge noch Failures im klassischen Sinne. Eine Pass-Rate kann nicht berechnet werden.
Stärken
- Keine inhaltlichen Fehler (falsche Logik, Halluzinationen) wurden beobachtet, da kein Patch überhaupt angewendet wurde.
- Das Fehlerverhalten ist konsistent und klar diagnostizierbar.
Schwächen
- 100 % der Samples scheitern mit `patch_apply_failed`, d.h. das Modell produziert Patches, die technisch nicht auf den Ziel-Codestand angewendet werden können.
- Pass-Rate und Score sind vollständig undefiniert — der Benchmark ist faktisch wertlos für einen Modellvergleich.
Auffälligkeiten
Alle 10 Fehler tragen exakt denselben Fehlercode (`patch_apply_failed`) ohne weitere Differenzierung. Dies deutet nicht auf ein inhaltliches Modellproblem hin, sondern auf ein systematisches Problem in der Patch-Generierung oder -Formatierung: falsche Kontextzeilen, falsche Dateipfade im Diff-Header oder ein Mismatch zwischen dem Ziel-Commit und dem vom Modell angenommenen Codestand.
Empfehlung
Vor einer erneuten Ausführung sollte die Patch-Extraktion und -Formatierung im Adapter geprüft werden: Stimmt das Diff-Format (`unified diff`, korrekte `a/`-`b/`-Pfade, ausreichend Kontext)? Stimmt der Basis-Commit mit dem im Benchmark erwarteten überein? Ein manueller Dry-Run mit `git apply --check` auf einem Sample-Patch würde die Ursache schnell isolieren. Erst danach lohnt sich eine vollständige Benchmark-Ausführung.
Übersicht
10 Samples-
10×
patch_apply_failed
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| astropy__astropy-12907 | error | — | 14171 ms | 55.3 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14182 | error | — | 17536 ms | 57.6 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14365 | error | — | 9394 ms | 49.6 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14995 | error | — | 6486 ms | 24.4 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-6938 | error | — | 6569 ms | 52.4 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-7746 | error | — | 8357 ms | 49.8 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10914 | error | — | 14800 ms | 59.5 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10924 | error | — | 13809 ms | 47.7 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11001 | error | — | 9407 ms | 48.2 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11019 | error | — | 11005 ms | 57.2 | — | ||
|
Lade Detail …
|
|||||||