Samples · swe_bench.swe_bench_lite

Run #64 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt · Score 0%

KI-Auswertung

Generiert 2026-05-12 02:18 · claude-sonnet-4-6

Zusammenfassung

Das Modell erzielt eine Pass-Rate von 0 % auf SWE-bench Lite: Kein einziger Patch führt zu grünen Tests. Die Fehlerquote dominiert das Ergebnis mit 8 Errors bei nur 10 ausgewerteten Samples.

Stärken

Das Modell produziert syntaktisch erkennbare Diff-Formate und versucht, relevante Codestellen zu adressieren.
Die inhaltliche Stoßrichtung der Patches (z.B. callable-Pfad-Handling in Django, leere Array-Behandlung in astropy) ist thematisch plausibel.

Schwächen

6 von 8 Errors sind `patch_apply_failed`: Die erzeugten Patches enthalten falsche Zeilennummern oder fiktive Hashes (z.B. `index 1234567..abcdefg`), die nicht auf den tatsächlichen Repo-Stand passen.
2 Errors sind Idle-Timeouts, was auf Inferenz-Instabilität oder Ressourcenprobleme hinweist.
Keine einzige Aufgabe wird korrekt gelöst, auch nicht die beiden Failures, deren Patches zwar angewendet werden konnten, aber die Tests nicht bestehen.

Auffälligkeiten

Alle `patch_apply_failed`-Fehler deuten auf ein systematisches Problem: Das Modell halluziniert Commit-Hashes und Zeilennummern, anstatt echte Kontext-Zeilen aus dem Repository zu verwenden. Dies ist ein konsistentes Muster über verschiedene Repos (astropy, Django) hinweg.

Empfehlung

Den Prompt-Aufbau überarbeiten: Das Modell muss den tatsächlichen Dateiinhalt als Kontext erhalten, damit es valide unified Diffs mit korrekten Zeilennummern erzeugt. Alternativ sollte ein Tool-Calling-Ansatz (z.B. direkte Dateibearbeitung statt Diff-Generierung) evaluiert werden, um die `patch_apply_failed`-Rate zu senken.

Übersicht

10 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 8863 p95: 300036 mean: 67692

Tokens/s

p50: 38.7 mean: 39.9

Top-Fehlermuster

6× patch_apply_failed
2× idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	astropy__astropy-12907	error	0%	—	9890 ms	49.2	—
Lade Detail …
	astropy__astropy-14182	error	0%	—	300037 ms	—	—
Lade Detail …
	astropy__astropy-14365	error	0%	—	5766 ms	34.2	—
Lade Detail …
	astropy__astropy-14995	error	0%	—	6428 ms	25	—
Lade Detail …
	astropy__astropy-6938	error	0%	—	3299 ms	43.3	—
Lade Detail …
	astropy__astropy-7746	failed	0%	—	4323 ms	38.2	—
Lade Detail …
	django__django-10914	error	0%	—	23837 ms	56.3	—
Lade Detail …
	django__django-10924	failed	0%	—	7835 ms	39.3	—
Lade Detail …
	django__django-11001	error	0%	—	300035 ms	—	—
Lade Detail …
	django__django-11019	error	0%	—	15467 ms	33.8	—
Lade Detail …