Samples · swe_bench.swe_bench_lite

Run #51 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt · Score 0%

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Das Modell gpt-oss:20b erreicht auf SWE-bench Lite eine Pass-Rate von 0 % — kein einziger Patch führt die zugehörigen Tests erfolgreich durch. Alle 10 Samples enden als Fehler oder Fehlschlag.

Stärken

Das Modell erzeugt syntaktisch erkennbare Diff-Formate und arbeitet sich in relevante Codestellen vor.
Einige Patches enthalten inhaltlich plausible Ansätze (z. B. fehlende Zuweisung bei `chararray.replace`, leere-Input-Behandlung in `wcs.py`).

Schwächen

Vier von zehn Samples scheitern bereits am Patch-Anwenden (`patch_apply_failed`), d. h. die erzeugten Diffs sind strukturell ungültig oder referenzieren falsche Zeilennummern/Kontexte.
Die verbleibenden sechs Patches sind inhaltlich nicht korrekt genug, um die Testsuite grün zu schalten — die Logik ist unvollständig oder falsch (z. B. abgeschnittene Ausgabe bei `rst.py`, falsches `block_diag`-Flattening bei `separable.py`).

Auffälligkeiten

Mehrere Antworten sind abgeschnitten (Truncation-Muster: Patch endet mitten im Code), was auf ein Token-Limit-Problem oder unkontrollierte Generierung hindeutet.
Alle `patch_apply_failed`-Fehler treten ohne sichtbaren Prompt auf — möglicherweise werden fehlerhafte Hunk-Header (`@@`-Zeilen ohne Zeilennummern) systematisch produziert.
Das Django-Failure enthält syntaktisch kaputtes Python im entfernten Abschnitt, was auf Halluzination beim Diff-Erzeugen hindeutet.

Empfehlung

Vor weiteren Läufen das Diff-Format strikt per System-Prompt erzwingen (vollständige `@@`-Hunk-Header mit Zeilennummern) und das maximale Output-Token-Limit erhöhen, um Truncation zu verhindern; danach gezielt prüfen, ob `patch_apply_failed` abnimmt.

Übersicht

10 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 9722 p95: 18695 mean: 10928

Tokens/s

p50: 158.5 mean: 157.3

Top-Fehlermuster

4× patch_apply_failed

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	astropy__astropy-12907	failed	0%	—	18704 ms	162.2	—
Lade Detail …
	astropy__astropy-14182	failed	0%	—	16720 ms	161.8	—
Lade Detail …
	astropy__astropy-14365	error	0%	—	5954 ms	158	—
Lade Detail …
	astropy__astropy-14995	failed	0%	—	3776 ms	143.8	—
Lade Detail …
	astropy__astropy-6938	failed	0%	—	3569 ms	157.7	—
Lade Detail …
	astropy__astropy-7746	failed	0%	—	8872 ms	160.5	—
Lade Detail …
	django__django-10914	error	0%	—	6088 ms	155.4	—
Lade Detail …
	django__django-10924	error	0%	—	16340 ms	158.9	—
Lade Detail …
	django__django-11001	error	0%	—	10571 ms	159.7	—
Lade Detail …
	django__django-11019	failed	0%	—	18683 ms	154.8	—
Lade Detail …