Samples · swe_bench.swe_bench_lite

Run #52 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt

KI-Auswertung

Generiert 2026-05-11 15:57 · claude-sonnet-4-6

Zusammenfassung

Das Modell llama3.2-vision hat beim SWE-bench Lite vollständig versagt: Es gibt weder erfolgreiche noch fehlgeschlagene Patch-Anwendungen, sondern ausschließlich Errors, sodass keine Pass-Rate berechnet werden kann.

Stärken

Keine erkennbaren Stärken identifizierbar, da kein einziger Test abgeschlossen wurde.

Schwächen

Das Modell produziert durchgängig nicht-anwendbare Patches, die den `patch_apply`-Schritt scheitern lassen.
Wiederholte Idle-Timeouts deuten auf zu langsame Inferenz oder fehlende Kapazität für komplexe Code-Prompts hin.

Auffälligkeiten

Zwei klar unterscheidbare Fehlermuster dominieren: Erstens tritt `patch_apply_failed` in 7 von 10 Fällen auf, was darauf hindeutet, dass das Modell syntaktisch oder strukturell invalide Diffs erzeugt, die nicht auf den Ziel-Code angewendet werden können. Zweitens kommt es in 3 von 10 Fällen zu Idle-Timeouts gegenüber dem Inference-Endpunkt, was auf Überlastung oder zu lange Generierungszeiten schließen lässt. Es gibt keine einzige erfolgreiche Antwort, was auf eine grundsätzliche Inkompatibilität des Modells mit dem Aufgabenformat hindeutet.

Empfehlung

llama3.2-vision sollte für SWE-bench nicht weiter evaluiert werden. Das Modell ist primär auf visuelle Aufgaben ausgelegt und nicht auf strukturierte Code-Patch-Generierung. Stattdessen sollte ein dediziertes Code-Modell (z.B. llama3-instruct oder eine Code-Llama-Variante) getestet werden. Zusätzlich sollte der Inference-Server auf Timeout-Konfiguration und Ressourcenverfügbarkeit geprüft werden.

Übersicht

10 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 6371 p95: 90002 mean: 30066

Tokens/s

p50: 113 mean: 110

Top-Fehlermuster

7× patch_apply_failed
3× idle timeout reached for "http://100.64.0.4:11434/api/chat".

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	astropy__astropy-12907	error	0%	—	6908 ms	120.6	—
Lade Detail …
	astropy__astropy-14182	error	0%	—	9019 ms	120.5	—
Lade Detail …
	astropy__astropy-14365	error	0%	—	90001 ms	—	—
Lade Detail …
	astropy__astropy-14995	error	0%	—	1830 ms	85.2	—
Lade Detail …
	astropy__astropy-6938	error	0%	—	1575 ms	113	—
Lade Detail …
	astropy__astropy-7746	error	0%	—	4010 ms	117.7	—
Lade Detail …
	django__django-10914	error	0%	—	90002 ms	—	—
Lade Detail …
	django__django-10924	error	0%	—	5833 ms	112.6	—
Lade Detail …
	django__django-11001	error	0%	—	1481 ms	100.6	—
Lade Detail …
	django__django-11019	error	0%	—	90002 ms	—	—
Lade Detail …