Samples · swe_bench.swe_bench_lite
KI-Auswertung
Generiert 2026-05-13 04:00 · claude-sonnet-4-6Zusammenfassung
Das Modell Qwen3-Coder-Next erzielt auf SWE-bench Lite eine Pass-Rate von 0 % – kein einziger Patch wurde erfolgreich angewendet und getestet. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich falschen Patch fehl.
Stärken
- Das Modell produziert strukturell valides Diff-Format (erkennbar am einzigen Failure-Sample).
- Die inhaltliche Logik des Django-Patches (callable-Check für `FilePathField.path`) ist konzeptionell nachvollziehbar.
Schwächen
- 8 von 9 Errors sind `patch_apply_failed`: Die generierten Patches passen nicht auf den tatsächlichen Quellcode.
- 1 Timeout deutet auf Stabilitätsprobleme bei der Inferenz-Endpunkt-Verbindung hin.
- Die Pass-Rate ist 0 – kein Patch besteht die Tests, selbst wenn er formal angewandt werden könnte.
Auffälligkeiten
Das dominierende Muster ist eindeutig: `patch_apply_failed` tritt in 8 von 9 Fehlerfällen auf. Das deutet darauf hin, dass das Modell falsche Zeilennummern oder fiktive Commit-Hashes (z. B. `1234567..abcdefg`) in den Diff-Headern erzeugt. Die Kontextzeilen stimmen offenbar nicht mit dem tatsächlichen Repository-Stand überein – ein klassisches Halluzinationsproblem beim Code-Grounding ohne direkten Dateizugriff.
Empfehlung
Den Tool-Calling- bzw. Repository-Kontext prüfen: Das Modell erhält offenbar keinen tatsächlichen Dateiinhalt zur Patch-Generierung. Es sollte sichergestellt werden, dass der relevante Quellcode als Kontext übergeben wird. Alternativ einen Retrieval-Step (z. B. exakten File-Fetch per SWE-bench-Harness) vorschalten und danach den Sub-Benchmark erneut evaluieren.
Übersicht
10 Samples-
8×
patch_apply_failed -
1×
idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| astropy__astropy-12907 | error | — | 72247 ms | 64.4 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14182 | error | — | 20889 ms | 62.5 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14365 | error | — | 16215 ms | 60.1 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14995 | error | — | 5356 ms | 30.8 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-6938 | error | — | 3286 ms | 48.7 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-7746 | error | — | 7178 ms | 54.6 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10914 | error | — | 19981 ms | 59.5 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10924 | failed | — | 6756 ms | 44.7 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11001 | error | — | 6080 ms | 48.7 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11019 | error | — | 300091 ms | — | — | ||
|
Lade Detail …
|
|||||||