Samples · swe_bench.swe_bench_lite

Run #57 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt

KI-Auswertung

Generiert 2026-05-11 19:03 · claude-sonnet-4-6

Zusammenfassung

Der Benchmark liefert kein verwertbares Ergebnis: Alle 10 Stichproben endeten mit einem Fehler, es gibt weder Erfolge noch Failures im klassischen Sinne. Eine Pass-Rate kann nicht berechnet werden.

Stärken

Keine inhaltlichen Fehler (falsche Logik, Halluzinationen) wurden beobachtet, da kein Patch überhaupt angewendet wurde.
Das Fehlerverhalten ist konsistent und klar diagnostizierbar.

Schwächen

100 % der Samples scheitern mit `patch_apply_failed`, d.h. das Modell produziert Patches, die technisch nicht auf den Ziel-Codestand angewendet werden können.
Pass-Rate und Score sind vollständig undefiniert — der Benchmark ist faktisch wertlos für einen Modellvergleich.

Auffälligkeiten

Alle 10 Fehler tragen exakt denselben Fehlercode (`patch_apply_failed`) ohne weitere Differenzierung. Dies deutet nicht auf ein inhaltliches Modellproblem hin, sondern auf ein systematisches Problem in der Patch-Generierung oder -Formatierung: falsche Kontextzeilen, falsche Dateipfade im Diff-Header oder ein Mismatch zwischen dem Ziel-Commit und dem vom Modell angenommenen Codestand.

Empfehlung

Vor einer erneuten Ausführung sollte die Patch-Extraktion und -Formatierung im Adapter geprüft werden: Stimmt das Diff-Format (`unified diff`, korrekte `a/`-`b/`-Pfade, ausreichend Kontext)? Stimmt der Basis-Commit mit dem im Benchmark erwarteten überein? Ein manueller Dry-Run mit `git apply --check` auf einem Sample-Patch würde die Ursache schnell isolieren. Erst danach lohnt sich eine vollständige Benchmark-Ausführung.

Übersicht

10 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 10206 p95: 16305 mean: 11153

Tokens/s

p50: 51.1 mean: 50.2

Top-Fehlermuster

10× patch_apply_failed

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	astropy__astropy-12907	error	0%	—	14171 ms	55.3	—
Lade Detail …
	astropy__astropy-14182	error	0%	—	17536 ms	57.6	—
Lade Detail …
	astropy__astropy-14365	error	0%	—	9394 ms	49.6	—
Lade Detail …
	astropy__astropy-14995	error	0%	—	6486 ms	24.4	—
Lade Detail …
	astropy__astropy-6938	error	0%	—	6569 ms	52.4	—
Lade Detail …
	astropy__astropy-7746	error	0%	—	8357 ms	49.8	—
Lade Detail …
	django__django-10914	error	0%	—	14800 ms	59.5	—
Lade Detail …
	django__django-10924	error	0%	—	13809 ms	47.7	—
Lade Detail …
	django__django-11001	error	0%	—	9407 ms	48.2	—
Lade Detail …
	django__django-11019	error	0%	—	11005 ms	57.2	—
Lade Detail …