Samples · swe_bench.swe_bench_lite

Run #70 · Adapter v1.0.0+patch-apply-detection · 10/10 Samples angezeigt · Score 0%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-13 04:00 · claude-sonnet-4-6

Zusammenfassung

Das Modell Qwen3-Coder-Next erzielt auf SWE-bench Lite eine Pass-Rate von 0 % – kein einziger Patch wurde erfolgreich angewendet und getestet. Von 10 Samples schlugen 9 mit Fehlern und 1 mit einem inhaltlich falschen Patch fehl.

Stärken

  • Das Modell produziert strukturell valides Diff-Format (erkennbar am einzigen Failure-Sample).
  • Die inhaltliche Logik des Django-Patches (callable-Check für `FilePathField.path`) ist konzeptionell nachvollziehbar.

Schwächen

  • 8 von 9 Errors sind `patch_apply_failed`: Die generierten Patches passen nicht auf den tatsächlichen Quellcode.
  • 1 Timeout deutet auf Stabilitätsprobleme bei der Inferenz-Endpunkt-Verbindung hin.
  • Die Pass-Rate ist 0 – kein Patch besteht die Tests, selbst wenn er formal angewandt werden könnte.

Auffälligkeiten

Das dominierende Muster ist eindeutig: `patch_apply_failed` tritt in 8 von 9 Fehlerfällen auf. Das deutet darauf hin, dass das Modell falsche Zeilennummern oder fiktive Commit-Hashes (z. B. `1234567..abcdefg`) in den Diff-Headern erzeugt. Die Kontextzeilen stimmen offenbar nicht mit dem tatsächlichen Repository-Stand überein – ein klassisches Halluzinationsproblem beim Code-Grounding ohne direkten Dateizugriff.

Empfehlung

Den Tool-Calling- bzw. Repository-Kontext prüfen: Das Modell erhält offenbar keinen tatsächlichen Dateiinhalt zur Patch-Generierung. Es sollte sichergestellt werden, dass der relevante Quellcode als Kontext übergeben wird. Alternativ einen Retrieval-Step (z. B. exakten File-Fetch per SWE-bench-Harness) vorschalten und danach den Sub-Benchmark erneut evaluieren.

Übersicht

10 Samples
Verteilung
1
9
Score-Histogramm
0 – 0.1: 10 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 0
0.0 ────── 1.0
Latenz (ms)
p50: 11697 p95: 197561 mean: 45808
Tokens/s
p50: 54.6 mean: 52.7
Top-Fehlermuster
  • patch_apply_failed
  • idle timeout reached for "http://100.64.0.2:52415/v1/chat/completions".
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
astropy__astropy-12907 error 0% 72247 ms 64.4
Lade Detail …
astropy__astropy-14182 error 0% 20889 ms 62.5
Lade Detail …
astropy__astropy-14365 error 0% 16215 ms 60.1
Lade Detail …
astropy__astropy-14995 error 0% 5356 ms 30.8
Lade Detail …
astropy__astropy-6938 error 0% 3286 ms 48.7
Lade Detail …
astropy__astropy-7746 error 0% 7178 ms 54.6
Lade Detail …
django__django-10914 error 0% 19981 ms 59.5
Lade Detail …
django__django-10924 failed 0% 6756 ms 44.7
Lade Detail …
django__django-11001 error 0% 6080 ms 48.7
Lade Detail …
django__django-11019 error 0% 300091 ms
Lade Detail …