Samples · swe_bench.swe_bench_lite
Run #51 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt
· Score 0%
KI-Auswertung
Generiert 2026-05-11 15:56 · claude-sonnet-4-6Zusammenfassung
Das Modell gpt-oss:20b erreicht auf SWE-bench Lite eine Pass-Rate von 0 % — kein einziger Patch führt die zugehörigen Tests erfolgreich durch. Alle 10 Samples enden als Fehler oder Fehlschlag.
Stärken
- Das Modell erzeugt syntaktisch erkennbare Diff-Formate und arbeitet sich in relevante Codestellen vor.
- Einige Patches enthalten inhaltlich plausible Ansätze (z. B. fehlende Zuweisung bei `chararray.replace`, leere-Input-Behandlung in `wcs.py`).
Schwächen
- Vier von zehn Samples scheitern bereits am Patch-Anwenden (`patch_apply_failed`), d. h. die erzeugten Diffs sind strukturell ungültig oder referenzieren falsche Zeilennummern/Kontexte.
- Die verbleibenden sechs Patches sind inhaltlich nicht korrekt genug, um die Testsuite grün zu schalten — die Logik ist unvollständig oder falsch (z. B. abgeschnittene Ausgabe bei `rst.py`, falsches `block_diag`-Flattening bei `separable.py`).
Auffälligkeiten
- Mehrere Antworten sind abgeschnitten (Truncation-Muster: Patch endet mitten im Code), was auf ein Token-Limit-Problem oder unkontrollierte Generierung hindeutet.
- Alle `patch_apply_failed`-Fehler treten ohne sichtbaren Prompt auf — möglicherweise werden fehlerhafte Hunk-Header (`@@`-Zeilen ohne Zeilennummern) systematisch produziert.
- Das Django-Failure enthält syntaktisch kaputtes Python im entfernten Abschnitt, was auf Halluzination beim Diff-Erzeugen hindeutet.
Empfehlung
Vor weiteren Läufen das Diff-Format strikt per System-Prompt erzwingen (vollständige `@@`-Hunk-Header mit Zeilennummern) und das maximale Output-Token-Limit erhöhen, um Truncation zu verhindern; danach gezielt prüfen, ob `patch_apply_failed` abnimmt.
Übersicht
10 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 9722
p95: 18695
mean: 10928
Tokens/s
p50: 158.5
mean: 157.3
Top-Fehlermuster
-
4×
patch_apply_failed
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| astropy__astropy-12907 | failed | — | 18704 ms | 162.2 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14182 | failed | — | 16720 ms | 161.8 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14365 | error | — | 5954 ms | 158 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14995 | failed | — | 3776 ms | 143.8 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-6938 | failed | — | 3569 ms | 157.7 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-7746 | failed | — | 8872 ms | 160.5 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10914 | error | — | 6088 ms | 155.4 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10924 | error | — | 16340 ms | 158.9 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11001 | error | — | 10571 ms | 159.7 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11019 | failed | — | 18683 ms | 154.8 | — | ||
|
Lade Detail …
|
|||||||