Samples · swe_bench.swe_bench_lite

Run #52 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 15:57 · claude-sonnet-4-6

Zusammenfassung

Das Modell llama3.2-vision hat beim SWE-bench Lite vollständig versagt: Es gibt weder erfolgreiche noch fehlgeschlagene Patch-Anwendungen, sondern ausschließlich Errors, sodass keine Pass-Rate berechnet werden kann.

Stärken

  • Keine erkennbaren Stärken identifizierbar, da kein einziger Test abgeschlossen wurde.

Schwächen

  • Das Modell produziert durchgängig nicht-anwendbare Patches, die den `patch_apply`-Schritt scheitern lassen.
  • Wiederholte Idle-Timeouts deuten auf zu langsame Inferenz oder fehlende Kapazität für komplexe Code-Prompts hin.

Auffälligkeiten

Zwei klar unterscheidbare Fehlermuster dominieren: Erstens tritt `patch_apply_failed` in 7 von 10 Fällen auf, was darauf hindeutet, dass das Modell syntaktisch oder strukturell invalide Diffs erzeugt, die nicht auf den Ziel-Code angewendet werden können. Zweitens kommt es in 3 von 10 Fällen zu Idle-Timeouts gegenüber dem Inference-Endpunkt, was auf Überlastung oder zu lange Generierungszeiten schließen lässt. Es gibt keine einzige erfolgreiche Antwort, was auf eine grundsätzliche Inkompatibilität des Modells mit dem Aufgabenformat hindeutet.

Empfehlung

llama3.2-vision sollte für SWE-bench nicht weiter evaluiert werden. Das Modell ist primär auf visuelle Aufgaben ausgelegt und nicht auf strukturierte Code-Patch-Generierung. Stattdessen sollte ein dediziertes Code-Modell (z.B. llama3-instruct oder eine Code-Llama-Variante) getestet werden. Zusätzlich sollte der Inference-Server auf Timeout-Konfiguration und Ressourcenverfügbarkeit geprüft werden.

Übersicht

10 Samples
Verteilung
10
Score-Histogramm
0 – 0.1: 10 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Latenz (ms)
p50: 6371 p95: 90002 mean: 30066
Tokens/s
p50: 113 mean: 110
Top-Fehlermuster
  • patch_apply_failed
  • idle timeout reached for "http://100.64.0.4:11434/api/chat".
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
astropy__astropy-12907 error 0% 6908 ms 120.6
Lade Detail …
astropy__astropy-14182 error 0% 9019 ms 120.5
Lade Detail …
astropy__astropy-14365 error 0% 90001 ms
Lade Detail …
astropy__astropy-14995 error 0% 1830 ms 85.2
Lade Detail …
astropy__astropy-6938 error 0% 1575 ms 113
Lade Detail …
astropy__astropy-7746 error 0% 4010 ms 117.7
Lade Detail …
django__django-10914 error 0% 90002 ms
Lade Detail …
django__django-10924 error 0% 5833 ms 112.6
Lade Detail …
django__django-11001 error 0% 1481 ms 100.6
Lade Detail …
django__django-11019 error 0% 90002 ms
Lade Detail …