Samples · swe_bench.swe_bench_lite
KI-Auswertung
Generiert 2026-05-11 15:57 · claude-sonnet-4-6Zusammenfassung
Das Modell llama3.2-vision hat beim SWE-bench Lite vollständig versagt: Es gibt weder erfolgreiche noch fehlgeschlagene Patch-Anwendungen, sondern ausschließlich Errors, sodass keine Pass-Rate berechnet werden kann.
Stärken
- Keine erkennbaren Stärken identifizierbar, da kein einziger Test abgeschlossen wurde.
Schwächen
- Das Modell produziert durchgängig nicht-anwendbare Patches, die den `patch_apply`-Schritt scheitern lassen.
- Wiederholte Idle-Timeouts deuten auf zu langsame Inferenz oder fehlende Kapazität für komplexe Code-Prompts hin.
Auffälligkeiten
Zwei klar unterscheidbare Fehlermuster dominieren: Erstens tritt `patch_apply_failed` in 7 von 10 Fällen auf, was darauf hindeutet, dass das Modell syntaktisch oder strukturell invalide Diffs erzeugt, die nicht auf den Ziel-Code angewendet werden können. Zweitens kommt es in 3 von 10 Fällen zu Idle-Timeouts gegenüber dem Inference-Endpunkt, was auf Überlastung oder zu lange Generierungszeiten schließen lässt. Es gibt keine einzige erfolgreiche Antwort, was auf eine grundsätzliche Inkompatibilität des Modells mit dem Aufgabenformat hindeutet.
Empfehlung
llama3.2-vision sollte für SWE-bench nicht weiter evaluiert werden. Das Modell ist primär auf visuelle Aufgaben ausgelegt und nicht auf strukturierte Code-Patch-Generierung. Stattdessen sollte ein dediziertes Code-Modell (z.B. llama3-instruct oder eine Code-Llama-Variante) getestet werden. Zusätzlich sollte der Inference-Server auf Timeout-Konfiguration und Ressourcenverfügbarkeit geprüft werden.
Übersicht
10 Samples-
7×
patch_apply_failed -
3×
idle timeout reached for "http://100.64.0.4:11434/api/chat".
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| astropy__astropy-12907 | error | — | 6908 ms | 120.6 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14182 | error | — | 9019 ms | 120.5 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14365 | error | — | 90001 ms | — | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14995 | error | — | 1830 ms | 85.2 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-6938 | error | — | 1575 ms | 113 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-7746 | error | — | 4010 ms | 117.7 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10914 | error | — | 90002 ms | — | — | ||
|
Lade Detail …
|
|||||||
| django__django-10924 | error | — | 5833 ms | 112.6 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11001 | error | — | 1481 ms | 100.6 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11019 | error | — | 90002 ms | — | — | ||
|
Lade Detail …
|
|||||||