Samples · swe_bench.swe_bench_lite

Run #68 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt · Score 0%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 19:42 · claude-sonnet-4-6

Zusammenfassung

Das Modell `mlx-community/Qwen3-Coder-Next` erreicht auf SWE-bench Lite eine Pass-Rate von 0 %. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich nicht wertbaren Failure fehl; kein einziger Patch wurde erfolgreich angewendet.

Stärken

  • Das Modell generiert prinzipiell strukturell valide Unified-Diff-Patches (erkennbar am korrekten Diff-Format im Failure-Sample).
  • Der inhaltliche Ansatz im Failure-Beispiel (callable path-Handling in Django) ist konzeptuell nachvollziehbar und zeigt Verständnis des Issues.

Schwächen

  • Nahezu alle Samples scheitern an `patch_apply_failed` — die produzierten Patches passen nicht auf den tatsächlichen Codestand der Repositories.
  • Ein Sample bricht durch einen Idle-Timeout ab, was auf Latenz- oder Ressourcenprobleme beim Inference-Endpunkt hindeutet.
  • Kein einziger Patch führt zu grünen Tests; die Pass-Rate ist 0.

Auffälligkeiten

Das dominierende Fehlermuster ist ausschließlich `patch_apply_failed` (8 von 9 Errors). Dies deutet darauf hin, dass das Modell falsche Zeilennummern, fiktive Commit-Hashes (im Failure sichtbar: `1234567..abcdefg`) oder veraltete Kontextzeilen erzeugt, die nicht auf den echten Repository-Zustand passen. Der Timeout bei einem Sample ist ein separates Infrastrukturproblem.

Empfehlung

Den Patch-Generierungsprozess auf Kontextverankerung prüfen: Das Modell sollte echten Datei-Inhalt als Kontext erhalten (z. B. via File-Read-Tool), bevor es Diffs erzeugt. Zusätzlich den Inference-Endpunkt auf Timeout-Konfiguration und Ressourcen untersuchen.

Übersicht

10 Samples
Verteilung
1
9
Score-Histogramm
0 – 0.1: 10 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Latenz (ms)
p50: 11558 p95: 196597 mean: 45450
Tokens/s
p50: 54.9 mean: 53.6
Top-Fehlermuster
  • patch_apply_failed
  • idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
astropy__astropy-12907 error 0% 70133 ms 66.3
Lade Detail …
astropy__astropy-14182 error 0% 20397 ms 64
Lade Detail …
astropy__astropy-14365 error 0% 15969 ms 61
Lade Detail …
astropy__astropy-14995 error 0% 5451 ms 30.3
Lade Detail …
astropy__astropy-6938 error 0% 3282 ms 48.8
Lade Detail …
astropy__astropy-7746 error 0% 7146 ms 54.9
Lade Detail …
django__django-10914 error 0% 19585 ms 60.7
Lade Detail …
django__django-10924 failed 0% 6613 ms 45.7
Lade Detail …
django__django-11001 error 0% 5859 ms 50.5
Lade Detail …
django__django-11019 error 0% 300068 ms
Lade Detail …