Samples · swe_bench.swe_bench_lite

Run #70 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt · Score 0%

KI-Auswertung

Generiert 2026-05-13 04:00 · claude-sonnet-4-6

Zusammenfassung

Das Modell Qwen3-Coder-Next erzielt auf SWE-bench Lite eine Pass-Rate von 0 % – kein einziger Patch wurde erfolgreich angewendet und getestet. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich falschen Patch fehl.

Stärken

Das Modell produziert strukturell valides Diff-Format (erkennbar am einzigen Failure-Sample).
Die inhaltliche Logik des Django-Patches (callable-Check für `FilePathField.path`) ist konzeptionell nachvollziehbar.

Schwächen

8 von 9 Errors sind `patch_apply_failed`: Die generierten Patches passen nicht auf den tatsächlichen Quellcode.
1 Timeout deutet auf Stabilitätsprobleme bei der Inferenz-Endpunkt-Verbindung hin.
Die Pass-Rate ist 0 – kein Patch besteht die Tests, selbst wenn er formal angewandt werden könnte.

Auffälligkeiten

Das dominierende Muster ist eindeutig: `patch_apply_failed` tritt in 8 von 9 Fehlerfällen auf. Das deutet darauf hin, dass das Modell falsche Zeilennummern oder fiktive Commit-Hashes (z. B. `1234567..abcdefg`) in den Diff-Headern erzeugt. Die Kontextzeilen stimmen offenbar nicht mit dem tatsächlichen Repository-Stand überein – ein klassisches Halluzinationsproblem beim Code-Grounding ohne direkten Dateizugriff.

Empfehlung

Den Tool-Calling- bzw. Repository-Kontext prüfen: Das Modell erhält offenbar keinen tatsächlichen Dateiinhalt zur Patch-Generierung. Es sollte sichergestellt werden, dass der relevante Quellcode als Kontext übergeben wird. Alternativ einen Retrieval-Step (z. B. exakten File-Fetch per SWE-bench-Harness) vorschalten und danach den Sub-Benchmark erneut evaluieren.

Übersicht

10 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 11697 p95: 197561 mean: 45808

Tokens/s

p50: 54.6 mean: 52.7

Top-Fehlermuster

8× patch_apply_failed
1× idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	astropy__astropy-12907	error	0%	—	72247 ms	64.4	—
Lade Detail …
	astropy__astropy-14182	error	0%	—	20889 ms	62.5	—
Lade Detail …
	astropy__astropy-14365	error	0%	—	16215 ms	60.1	—
Lade Detail …
	astropy__astropy-14995	error	0%	—	5356 ms	30.8	—
Lade Detail …
	astropy__astropy-6938	error	0%	—	3286 ms	48.7	—
Lade Detail …
	astropy__astropy-7746	error	0%	—	7178 ms	54.6	—
Lade Detail …
	django__django-10914	error	0%	—	19981 ms	59.5	—
Lade Detail …
	django__django-10924	failed	0%	—	6756 ms	44.7	—
Lade Detail …
	django__django-11001	error	0%	—	6080 ms	48.7	—
Lade Detail …
	django__django-11019	error	0%	—	300091 ms	—	—
Lade Detail …