Samples · swe_bench.swe_bench_lite
KI-Auswertung
Generiert 2026-05-12 02:18 · claude-sonnet-4-6Zusammenfassung
Das Modell erzielt eine Pass-Rate von 0 % auf SWE-bench Lite: Kein einziger Patch führt zu grünen Tests. Die Fehlerquote dominiert das Ergebnis mit 8 Errors bei nur 10 ausgewerteten Samples.
Stärken
- Das Modell produziert syntaktisch erkennbare Diff-Formate und versucht, relevante Codestellen zu adressieren.
- Die inhaltliche Stoßrichtung der Patches (z.B. callable-Pfad-Handling in Django, leere Array-Behandlung in astropy) ist thematisch plausibel.
Schwächen
- 6 von 8 Errors sind `patch_apply_failed`: Die erzeugten Patches enthalten falsche Zeilennummern oder fiktive Hashes (z.B. `index 1234567..abcdefg`), die nicht auf den tatsächlichen Repo-Stand passen.
- 2 Errors sind Idle-Timeouts, was auf Inferenz-Instabilität oder Ressourcenprobleme hinweist.
- Keine einzige Aufgabe wird korrekt gelöst, auch nicht die beiden Failures, deren Patches zwar angewendet werden konnten, aber die Tests nicht bestehen.
Auffälligkeiten
Alle `patch_apply_failed`-Fehler deuten auf ein systematisches Problem: Das Modell halluziniert Commit-Hashes und Zeilennummern, anstatt echte Kontext-Zeilen aus dem Repository zu verwenden. Dies ist ein konsistentes Muster über verschiedene Repos (astropy, Django) hinweg.
Empfehlung
Den Prompt-Aufbau überarbeiten: Das Modell muss den tatsächlichen Dateiinhalt als Kontext erhalten, damit es valide unified Diffs mit korrekten Zeilennummern erzeugt. Alternativ sollte ein Tool-Calling-Ansatz (z.B. direkte Dateibearbeitung statt Diff-Generierung) evaluiert werden, um die `patch_apply_failed`-Rate zu senken.
Übersicht
10 Samples-
6×
patch_apply_failed -
2×
idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| astropy__astropy-12907 | error | — | 9890 ms | 49.2 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14182 | error | — | 300037 ms | — | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14365 | error | — | 5766 ms | 34.2 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14995 | error | — | 6428 ms | 25 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-6938 | error | — | 3299 ms | 43.3 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-7746 | failed | — | 4323 ms | 38.2 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10914 | error | — | 23837 ms | 56.3 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10924 | failed | — | 7835 ms | 39.3 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11001 | error | — | 300035 ms | — | — | ||
|
Lade Detail …
|
|||||||
| django__django-11019 | error | — | 15467 ms | 33.8 | — | ||
|
Lade Detail …
|
|||||||