Samples · swe_bench.swe_bench_lite

Run #57 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 19:03 · claude-sonnet-4-6

Zusammenfassung

Der Benchmark liefert kein verwertbares Ergebnis: Alle 10 Stichproben endeten mit einem Fehler, es gibt weder Erfolge noch Failures im klassischen Sinne. Eine Pass-Rate kann nicht berechnet werden.

Stärken

  • Keine inhaltlichen Fehler (falsche Logik, Halluzinationen) wurden beobachtet, da kein Patch überhaupt angewendet wurde.
  • Das Fehlerverhalten ist konsistent und klar diagnostizierbar.

Schwächen

  • 100 % der Samples scheitern mit `patch_apply_failed`, d.h. das Modell produziert Patches, die technisch nicht auf den Ziel-Codestand angewendet werden können.
  • Pass-Rate und Score sind vollständig undefiniert — der Benchmark ist faktisch wertlos für einen Modellvergleich.

Auffälligkeiten

Alle 10 Fehler tragen exakt denselben Fehlercode (`patch_apply_failed`) ohne weitere Differenzierung. Dies deutet nicht auf ein inhaltliches Modellproblem hin, sondern auf ein systematisches Problem in der Patch-Generierung oder -Formatierung: falsche Kontextzeilen, falsche Dateipfade im Diff-Header oder ein Mismatch zwischen dem Ziel-Commit und dem vom Modell angenommenen Codestand.

Empfehlung

Vor einer erneuten Ausführung sollte die Patch-Extraktion und -Formatierung im Adapter geprüft werden: Stimmt das Diff-Format (`unified diff`, korrekte `a/`-`b/`-Pfade, ausreichend Kontext)? Stimmt der Basis-Commit mit dem im Benchmark erwarteten überein? Ein manueller Dry-Run mit `git apply --check` auf einem Sample-Patch würde die Ursache schnell isolieren. Erst danach lohnt sich eine vollständige Benchmark-Ausführung.

Übersicht

10 Samples
Verteilung
10
Score-Histogramm
0 – 0.1: 10 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Latenz (ms)
p50: 10206 p95: 16305 mean: 11153
Tokens/s
p50: 51.1 mean: 50.2
Top-Fehlermuster
  • 10× patch_apply_failed
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
astropy__astropy-12907 error 0% 14171 ms 55.3
Lade Detail …
astropy__astropy-14182 error 0% 17536 ms 57.6
Lade Detail …
astropy__astropy-14365 error 0% 9394 ms 49.6
Lade Detail …
astropy__astropy-14995 error 0% 6486 ms 24.4
Lade Detail …
astropy__astropy-6938 error 0% 6569 ms 52.4
Lade Detail …
astropy__astropy-7746 error 0% 8357 ms 49.8
Lade Detail …
django__django-10914 error 0% 14800 ms 59.5
Lade Detail …
django__django-10924 error 0% 13809 ms 47.7
Lade Detail …
django__django-11001 error 0% 9407 ms 48.2
Lade Detail …
django__django-11019 error 0% 11005 ms 57.2
Lade Detail …