Samples · swe_bench.swe_bench_lite
KI-Auswertung
Generiert 2026-05-13 21:38 · claude-sonnet-4-6Zusammenfassung
Der Benchmark liefert kein verwertbares Ergebnis: Alle 10 Samples enden als Fehler, es gibt weder Successes noch Failures, und eine Pass-Rate kann nicht berechnet werden. Das Modell hat de facto keinen einzigen Patch erfolgreich eingereicht.
Stärken
- Keine erkennbaren inhaltlichen Fehler (keine Failures mit falschem Code), da die Pipeline bereits vorher abbricht.
- Ein Idle-Timeout deutet auf prinzipielle Erreichbarkeit des Endpunkts hin — der Inference-Server läuft grundsätzlich.
Schwächen
- Dominanter Fehlertyp `patch_invalid_hash` (9 von 10) deutet darauf hin, dass die erzeugten Patches fehlerhafte oder fehlende Kontext-Hashes enthalten und nicht auf den Ziel-Commit angewendet werden können.
- Ein `patch_apply_failed` zeigt zusätzlich Probleme beim Patch-Format selbst.
- Ein Idle-Timeout signalisiert, dass das Modell bei mindestens einem Sample die Antwort nicht innerhalb der erlaubten Zeit liefert — möglicherweise ein Ressourcen- oder Quantisierungsproblem.
Auffälligkeiten
Nahezu alle Fehler sind `patch_invalid_hash`. Das ist ein klares Muster: Das Modell generiert Patches, deren Diff-Header (Zeilennummern oder Kontext-Zeilen) nicht mit dem tatsächlichen Repository-Zustand übereinstimmen. Dies ist typisch für Modelle, die Patches ohne Zugriff auf den exakten Dateiinhalt halluzinieren.
Empfehlung
Primär das Patching-Pipeline-Setup prüfen: Sicherstellen, dass dem Modell der korrekte Dateiinhalt des Ziel-Commits als Kontext übergeben wird, damit es valide unified-diff-Hashes erzeugen kann. Zusätzlich die Inference-Timeout-Konfiguration erhöhen oder die Quantisierungsstufe reduzieren, um den Idle-Timeout zu beheben.
Übersicht
10 Samples-
8×
patch_invalid_hash -
1×
patch_apply_failed -
1×
idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| astropy__astropy-12907 | error | — | 73301 ms | 63.5 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14182 | error | — | 21335 ms | 61.2 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14365 | error | — | 16549 ms | 58.9 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-14995 | error | — | 5533 ms | 29.8 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-6938 | error | — | 3406 ms | 47 | — | ||
|
Lade Detail …
|
|||||||
| astropy__astropy-7746 | error | — | 7374 ms | 53.2 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10914 | error | — | 20435 ms | 58.2 | — | ||
|
Lade Detail …
|
|||||||
| django__django-10924 | error | — | 6971 ms | 43.3 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11001 | error | — | 6180 ms | 47.9 | — | ||
|
Lade Detail …
|
|||||||
| django__django-11019 | error | — | 300101 ms | — | — | ||
|
Lade Detail …
|
|||||||