Samples · swe_bench.swe_bench_lite

Run #64 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt · Score 0%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 02:18 · claude-sonnet-4-6

Zusammenfassung

Das Modell erzielt eine Pass-Rate von 0 % auf SWE-bench Lite: Kein einziger Patch führt zu grünen Tests. Die Fehlerquote dominiert das Ergebnis mit 8 Errors bei nur 10 ausgewerteten Samples.

Stärken

  • Das Modell produziert syntaktisch erkennbare Diff-Formate und versucht, relevante Codestellen zu adressieren.
  • Die inhaltliche Stoßrichtung der Patches (z.B. callable-Pfad-Handling in Django, leere Array-Behandlung in astropy) ist thematisch plausibel.

Schwächen

  • 6 von 8 Errors sind `patch_apply_failed`: Die erzeugten Patches enthalten falsche Zeilennummern oder fiktive Hashes (z.B. `index 1234567..abcdefg`), die nicht auf den tatsächlichen Repo-Stand passen.
  • 2 Errors sind Idle-Timeouts, was auf Inferenz-Instabilität oder Ressourcenprobleme hinweist.
  • Keine einzige Aufgabe wird korrekt gelöst, auch nicht die beiden Failures, deren Patches zwar angewendet werden konnten, aber die Tests nicht bestehen.

Auffälligkeiten

Alle `patch_apply_failed`-Fehler deuten auf ein systematisches Problem: Das Modell halluziniert Commit-Hashes und Zeilennummern, anstatt echte Kontext-Zeilen aus dem Repository zu verwenden. Dies ist ein konsistentes Muster über verschiedene Repos (astropy, Django) hinweg.

Empfehlung

Den Prompt-Aufbau überarbeiten: Das Modell muss den tatsächlichen Dateiinhalt als Kontext erhalten, damit es valide unified Diffs mit korrekten Zeilennummern erzeugt. Alternativ sollte ein Tool-Calling-Ansatz (z.B. direkte Dateibearbeitung statt Diff-Generierung) evaluiert werden, um die `patch_apply_failed`-Rate zu senken.

Übersicht

10 Samples
Verteilung
2
8
Score-Histogramm
0 – 0.1: 10 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Latenz (ms)
p50: 8863 p95: 300036 mean: 67692
Tokens/s
p50: 38.7 mean: 39.9
Top-Fehlermuster
  • patch_apply_failed
  • idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
astropy__astropy-12907 error 0% 9890 ms 49.2
Lade Detail …
astropy__astropy-14182 error 0% 300037 ms
Lade Detail …
astropy__astropy-14365 error 0% 5766 ms 34.2
Lade Detail …
astropy__astropy-14995 error 0% 6428 ms 25
Lade Detail …
astropy__astropy-6938 error 0% 3299 ms 43.3
Lade Detail …
astropy__astropy-7746 failed 0% 4323 ms 38.2
Lade Detail …
django__django-10914 error 0% 23837 ms 56.3
Lade Detail …
django__django-10924 failed 0% 7835 ms 39.3
Lade Detail …
django__django-11001 error 0% 300035 ms
Lade Detail …
django__django-11019 error 0% 15467 ms 33.8
Lade Detail …