Samples · swe_bench.swe_bench_lite

Run #75 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt

KI-Auswertung

Generiert 2026-05-13 21:38 · claude-sonnet-4-6

Zusammenfassung

Der Benchmark liefert kein verwertbares Ergebnis: Alle 10 Samples enden als Fehler, es gibt weder Successes noch Failures, und eine Pass-Rate kann nicht berechnet werden. Das Modell hat de facto keinen einzigen Patch erfolgreich eingereicht.

Stärken

Keine erkennbaren inhaltlichen Fehler (keine Failures mit falschem Code), da die Pipeline bereits vorher abbricht.
Ein Idle-Timeout deutet auf prinzipielle Erreichbarkeit des Endpunkts hin — der Inference-Server läuft grundsätzlich.

Schwächen

Dominanter Fehlertyp `patch_invalid_hash` (9 von 10) deutet darauf hin, dass die erzeugten Patches fehlerhafte oder fehlende Kontext-Hashes enthalten und nicht auf den Ziel-Commit angewendet werden können.
Ein `patch_apply_failed` zeigt zusätzlich Probleme beim Patch-Format selbst.
Ein Idle-Timeout signalisiert, dass das Modell bei mindestens einem Sample die Antwort nicht innerhalb der erlaubten Zeit liefert — möglicherweise ein Ressourcen- oder Quantisierungsproblem.

Auffälligkeiten

Nahezu alle Fehler sind `patch_invalid_hash`. Das ist ein klares Muster: Das Modell generiert Patches, deren Diff-Header (Zeilennummern oder Kontext-Zeilen) nicht mit dem tatsächlichen Repository-Zustand übereinstimmen. Dies ist typisch für Modelle, die Patches ohne Zugriff auf den exakten Dateiinhalt halluzinieren.

Empfehlung

Primär das Patching-Pipeline-Setup prüfen: Sicherstellen, dass dem Modell der korrekte Dateiinhalt des Ziel-Commits als Kontext übergeben wird, damit es valide unified-diff-Hashes erzeugen kann. Zusätzlich die Inference-Timeout-Konfiguration erhöhen oder die Quantisierungsstufe reduzieren, um den Idle-Timeout zu beheben.

Übersicht

10 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 11962 p95: 198041 mean: 46119

Tokens/s

p50: 53.2 mean: 51.4

Top-Fehlermuster

8× patch_invalid_hash
1× patch_apply_failed
1× idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	astropy__astropy-12907	error	0%	—	73301 ms	63.5	—
Lade Detail …
	astropy__astropy-14182	error	0%	—	21335 ms	61.2	—
Lade Detail …
	astropy__astropy-14365	error	0%	—	16549 ms	58.9	—
Lade Detail …
	astropy__astropy-14995	error	0%	—	5533 ms	29.8	—
Lade Detail …
	astropy__astropy-6938	error	0%	—	3406 ms	47	—
Lade Detail …
	astropy__astropy-7746	error	0%	—	7374 ms	53.2	—
Lade Detail …
	django__django-10914	error	0%	—	20435 ms	58.2	—
Lade Detail …
	django__django-10924	error	0%	—	6971 ms	43.3	—
Lade Detail …
	django__django-11001	error	0%	—	6180 ms	47.9	—
Lade Detail …
	django__django-11019	error	0%	—	300101 ms	—	—
Lade Detail …