Samples · swe_bench.swe_bench_lite

Run #51 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt · Score 0%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Das Modell gpt-oss:20b erreicht auf SWE-bench Lite eine Pass-Rate von 0 % — kein einziger Patch führt die zugehörigen Tests erfolgreich durch. Alle 10 Samples enden als Fehler oder Fehlschlag.

Stärken

  • Das Modell erzeugt syntaktisch erkennbare Diff-Formate und arbeitet sich in relevante Codestellen vor.
  • Einige Patches enthalten inhaltlich plausible Ansätze (z. B. fehlende Zuweisung bei `chararray.replace`, leere-Input-Behandlung in `wcs.py`).

Schwächen

  • Vier von zehn Samples scheitern bereits am Patch-Anwenden (`patch_apply_failed`), d. h. die erzeugten Diffs sind strukturell ungültig oder referenzieren falsche Zeilennummern/Kontexte.
  • Die verbleibenden sechs Patches sind inhaltlich nicht korrekt genug, um die Testsuite grün zu schalten — die Logik ist unvollständig oder falsch (z. B. abgeschnittene Ausgabe bei `rst.py`, falsches `block_diag`-Flattening bei `separable.py`).

Auffälligkeiten

  • Mehrere Antworten sind abgeschnitten (Truncation-Muster: Patch endet mitten im Code), was auf ein Token-Limit-Problem oder unkontrollierte Generierung hindeutet.
  • Alle `patch_apply_failed`-Fehler treten ohne sichtbaren Prompt auf — möglicherweise werden fehlerhafte Hunk-Header (`@@`-Zeilen ohne Zeilennummern) systematisch produziert.
  • Das Django-Failure enthält syntaktisch kaputtes Python im entfernten Abschnitt, was auf Halluzination beim Diff-Erzeugen hindeutet.

Empfehlung

Vor weiteren Läufen das Diff-Format strikt per System-Prompt erzwingen (vollständige `@@`-Hunk-Header mit Zeilennummern) und das maximale Output-Token-Limit erhöhen, um Truncation zu verhindern; danach gezielt prüfen, ob `patch_apply_failed` abnimmt.

Übersicht

10 Samples
Verteilung
6
4
Score-Histogramm
0 – 0.1: 10 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Latenz (ms)
p50: 9722 p95: 18695 mean: 10928
Tokens/s
p50: 158.5 mean: 157.3
Top-Fehlermuster
  • patch_apply_failed
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
astropy__astropy-12907 failed 0% 18704 ms 162.2
Lade Detail …
astropy__astropy-14182 failed 0% 16720 ms 161.8
Lade Detail …
astropy__astropy-14365 error 0% 5954 ms 158
Lade Detail …
astropy__astropy-14995 failed 0% 3776 ms 143.8
Lade Detail …
astropy__astropy-6938 failed 0% 3569 ms 157.7
Lade Detail …
astropy__astropy-7746 failed 0% 8872 ms 160.5
Lade Detail …
django__django-10914 error 0% 6088 ms 155.4
Lade Detail …
django__django-10924 error 0% 16340 ms 158.9
Lade Detail …
django__django-11001 error 0% 10571 ms 159.7
Lade Detail …
django__django-11019 failed 0% 18683 ms 154.8
Lade Detail …