Samples · lm_eval_harness.humaneval

Run #26 · Adapter v1.0.0+humaneval-unsafe-flag · 0/164 Samples angezeigt · Score 56.7%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-10 17:12 · claude-sonnet-4-6

Zusammenfassung

Das Modell qwen3.6-35b-a3b-tq3 erreicht eine Pass-Rate von 56,7 % auf HumanEval, was für ein quantisiertes Modell dieser Größe ein mittelmäßiges Ergebnis darstellt — rund 44 % der 164 Aufgaben werden nicht korrekt gelöst.

Stärken

  • Einfache algorithmische Aufgaben (Bitoperationen, Palindrom-Zählung, Sortierung nach Binärdarstellung) werden zuverlässig gelöst.
  • Keine Laufzeitfehler (0 Errors), das Modell liefert stets syntaktisch validen Python-Code.
  • Kurze, prägnante Implementierungen ohne unnötigen Overhead.

Schwächen

  • Logikfehler bei Teilaufgaben: `largest_divisor` iteriert von 1 aufwärts statt von n-1 abwärts und gibt damit den kleinsten statt den größten Teiler zurück.
  • Fehlende Hilfsfunktionen: `sum_product` ruft `product()` auf, das nicht definiert ist.
  • Algorithmusverständnis: `fizz_buzz` zählt Zahlen statt Ziffern; `how_many_times` enthält einen Off-by-one-Fehler beim Substring-Suchen.
  • `decode_cyclic` gibt denselben Code wie `encode_cyclic` zurück, ohne die inverse Operation zu implementieren.

Auffälligkeiten

Ein klares Muster in den Failures: Das Modell missversteht die Aufgabenspezifikation auf konzeptioneller Ebene (Zählung von Ziffern vs. Zahlen, kleinster vs. größter Teiler, Inverse einer Funktion). Zusätzlich fehlt bei einfachen Utility-Funktionen die Eigenimplementierung zugunsten nicht-existierender Built-ins. Die `parse_nested_parens`-Fehler deuten auf Schwächen bei zustandsbehafteter String-Verarbeitung hin.

Empfehlung

Den Sub-Bereich "algorithmische Korrektheit bei invertierten oder gespiegelten Operationen" sowie "Spezifikationsverständnis (Ziffer vs. Zahl, Min vs. Max)" gezielt mit Few-Shot-Prompting oder Chain-of-Thought-Anleitung untersuchen; alternativ Sampling-Temperatur leicht erhöhen (z. B. 0.2–0.4) und pass@k > 1 evaluieren.

Übersicht

164 Samples
Verteilung
93
71
Score-Histogramm
0 – 0.1: 71 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 93
0.0 ────── 1.0
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Filter zurücksetzen, um die 164 Samples zu sehen.
0 von 164 Samples · Limit 200 ‹ Vorherige