Samples · swe_bench.swe_bench_lite
KI-Auswertung
Generiert 2026-05-12 19:42 · claude-sonnet-4-6Zusammenfassung
Das Modell `mlx-community/Qwen3-Coder-Next` erreicht auf SWE-bench Lite eine Pass-Rate von 0 %. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich nicht wertbaren Failure fehl; kein einziger Patch wurde erfolgreich angewendet.
Stärken
- Das Modell generiert prinzipiell strukturell valide Unified-Diff-Patches (erkennbar am korrekten Diff-Format im Failure-Sample).
- Der inhaltliche Ansatz im Failure-Beispiel (callable path-Handling in Django) ist konzeptuell nachvollziehbar und zeigt Verständnis des Issues.
Schwächen
- Nahezu alle Samples scheitern an `patch_apply_failed` — die produzierten Patches passen nicht auf den tatsächlichen Codestand der Repositories.
- Ein Sample bricht durch einen Idle-Timeout ab, was auf Latenz- oder Ressourcenprobleme beim Inference-Endpunkt hindeutet.
- Kein einziger Patch führt zu grünen Tests; die Pass-Rate ist 0.
Auffälligkeiten
Das dominierende Fehlermuster ist ausschließlich `patch_apply_failed` (8 von 9 Errors). Dies deutet darauf hin, dass das Modell falsche Zeilennummern, fiktive Commit-Hashes (im Failure sichtbar: `1234567..abcdefg`) oder veraltete Kontextzeilen erzeugt, die nicht auf den echten Repository-Zustand passen. Der Timeout bei einem Sample ist ein separates Infrastrukturproblem.
Empfehlung
Den Patch-Generierungsprozess auf Kontextverankerung prüfen: Das Modell sollte echten Datei-Inhalt als Kontext erhalten (z. B. via File-Read-Tool), bevor es Diffs erzeugt. Zusätzlich den Inference-Endpunkt auf Timeout-Konfiguration und Ressourcen untersuchen.
Übersicht
10 Samples-
8×
patch_apply_failed -
1×
idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| astropy__astropy-12907 | error | — | 70133 ms | 66.3 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14182 | error | — | 20397 ms | 64 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14365 | error | — | 15969 ms | 61 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14995 | error | — | 5451 ms | 30.3 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-6938 | error | — | 3282 ms | 48.8 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-7746 | error | — | 7146 ms | 54.9 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10914 | error | — | 19585 ms | 60.7 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10924 | failed | — | 6613 ms | 45.7 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11001 | error | — | 5859 ms | 50.5 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11019 | error | — | 300068 ms | — | — | ||
|
Lade Detail …
|
|||||||