Samples · swe_bench.swe_bench_lite

Run #75 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-13 21:38 · claude-sonnet-4-6

Zusammenfassung

Der Benchmark liefert kein verwertbares Ergebnis: Alle 10 Samples enden als Fehler, es gibt weder Successes noch Failures, und eine Pass-Rate kann nicht berechnet werden. Das Modell hat de facto keinen einzigen Patch erfolgreich eingereicht.

Stärken

  • Keine erkennbaren inhaltlichen Fehler (keine Failures mit falschem Code), da die Pipeline bereits vorher abbricht.
  • Ein Idle-Timeout deutet auf prinzipielle Erreichbarkeit des Endpunkts hin — der Inference-Server läuft grundsätzlich.

Schwächen

  • Dominanter Fehlertyp `patch_invalid_hash` (9 von 10) deutet darauf hin, dass die erzeugten Patches fehlerhafte oder fehlende Kontext-Hashes enthalten und nicht auf den Ziel-Commit angewendet werden können.
  • Ein `patch_apply_failed` zeigt zusätzlich Probleme beim Patch-Format selbst.
  • Ein Idle-Timeout signalisiert, dass das Modell bei mindestens einem Sample die Antwort nicht innerhalb der erlaubten Zeit liefert — möglicherweise ein Ressourcen- oder Quantisierungsproblem.

Auffälligkeiten

Nahezu alle Fehler sind `patch_invalid_hash`. Das ist ein klares Muster: Das Modell generiert Patches, deren Diff-Header (Zeilennummern oder Kontext-Zeilen) nicht mit dem tatsächlichen Repository-Zustand übereinstimmen. Dies ist typisch für Modelle, die Patches ohne Zugriff auf den exakten Dateiinhalt halluzinieren.

Empfehlung

Primär das Patching-Pipeline-Setup prüfen: Sicherstellen, dass dem Modell der korrekte Dateiinhalt des Ziel-Commits als Kontext übergeben wird, damit es valide unified-diff-Hashes erzeugen kann. Zusätzlich die Inference-Timeout-Konfiguration erhöhen oder die Quantisierungsstufe reduzieren, um den Idle-Timeout zu beheben.

Übersicht

10 Samples
Verteilung
10
Score-Histogramm
0 – 0.1: 10 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Latenz (ms)
p50: 11962 p95: 198041 mean: 46119
Tokens/s
p50: 53.2 mean: 51.4
Top-Fehlermuster
  • patch_invalid_hash
  • patch_apply_failed
  • idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
astropy__astropy-12907 error 0% 73301 ms 63.5
Lade Detail …
astropy__astropy-14182 error 0% 21335 ms 61.2
Lade Detail …
astropy__astropy-14365 error 0% 16549 ms 58.9
Lade Detail …
astropy__astropy-14995 error 0% 5533 ms 29.8
Lade Detail …
astropy__astropy-6938 error 0% 3406 ms 47
Lade Detail …
astropy__astropy-7746 error 0% 7374 ms 53.2
Lade Detail …
django__django-10914 error 0% 20435 ms 58.2
Lade Detail …
django__django-10924 error 0% 6971 ms 43.3
Lade Detail …
django__django-11001 error 0% 6180 ms 47.9
Lade Detail …
django__django-11019 error 0% 300101 ms
Lade Detail …