Samples · swe_bench.swe_bench_lite

Run #68 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt · Score 0%

KI-Auswertung

Generiert 2026-05-12 19:42 · claude-sonnet-4-6

Zusammenfassung

Das Modell `mlx-community/Qwen3-Coder-Next` erreicht auf SWE-bench Lite eine Pass-Rate von 0 %. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich nicht wertbaren Failure fehl; kein einziger Patch wurde erfolgreich angewendet.

Stärken

Das Modell generiert prinzipiell strukturell valide Unified-Diff-Patches (erkennbar am korrekten Diff-Format im Failure-Sample).
Der inhaltliche Ansatz im Failure-Beispiel (callable path-Handling in Django) ist konzeptuell nachvollziehbar und zeigt Verständnis des Issues.

Schwächen

Nahezu alle Samples scheitern an `patch_apply_failed` — die produzierten Patches passen nicht auf den tatsächlichen Codestand der Repositories.
Ein Sample bricht durch einen Idle-Timeout ab, was auf Latenz- oder Ressourcenprobleme beim Inference-Endpunkt hindeutet.
Kein einziger Patch führt zu grünen Tests; die Pass-Rate ist 0.

Auffälligkeiten

Das dominierende Fehlermuster ist ausschließlich `patch_apply_failed` (8 von 9 Errors). Dies deutet darauf hin, dass das Modell falsche Zeilennummern, fiktive Commit-Hashes (im Failure sichtbar: `1234567..abcdefg`) oder veraltete Kontextzeilen erzeugt, die nicht auf den echten Repository-Zustand passen. Der Timeout bei einem Sample ist ein separates Infrastrukturproblem.

Empfehlung

Den Patch-Generierungsprozess auf Kontextverankerung prüfen: Das Modell sollte echten Datei-Inhalt als Kontext erhalten (z. B. via File-Read-Tool), bevor es Diffs erzeugt. Zusätzlich den Inference-Endpunkt auf Timeout-Konfiguration und Ressourcen untersuchen.

Übersicht

10 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 11558 p95: 196597 mean: 45450

Tokens/s

p50: 54.9 mean: 53.6

Top-Fehlermuster

8× patch_apply_failed
1× idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	astropy__astropy-12907	error	0%	—	70133 ms	66.3	—
Lade Detail …
	astropy__astropy-14182	error	0%	—	20397 ms	64	—
Lade Detail …
	astropy__astropy-14365	error	0%	—	15969 ms	61	—
Lade Detail …
	astropy__astropy-14995	error	0%	—	5451 ms	30.3	—
Lade Detail …
	astropy__astropy-6938	error	0%	—	3282 ms	48.8	—
Lade Detail …
	astropy__astropy-7746	error	0%	—	7146 ms	54.9	—
Lade Detail …
	django__django-10914	error	0%	—	19585 ms	60.7	—
Lade Detail …
	django__django-10924	failed	0%	—	6613 ms	45.7	—
Lade Detail …
	django__django-11001	error	0%	—	5859 ms	50.5	—
Lade Detail …
	django__django-11019	error	0%	—	300068 ms	—	—
Lade Detail …