Samples · lm_eval_harness.humaneval
KI-Auswertung
Generiert 2026-05-10 17:12 · claude-sonnet-4-6Zusammenfassung
Das Modell qwen3.6-35b-a3b-tq3 erreicht eine Pass-Rate von 56,7 % auf HumanEval, was für ein quantisiertes Modell dieser Größe ein mittelmäßiges Ergebnis darstellt — rund 44 % der 164 Aufgaben werden nicht korrekt gelöst.
Stärken
- Einfache algorithmische Aufgaben (Bitoperationen, Palindrom-Zählung, Sortierung nach Binärdarstellung) werden zuverlässig gelöst.
- Keine Laufzeitfehler (0 Errors), das Modell liefert stets syntaktisch validen Python-Code.
- Kurze, prägnante Implementierungen ohne unnötigen Overhead.
Schwächen
- Logikfehler bei Teilaufgaben: `largest_divisor` iteriert von 1 aufwärts statt von n-1 abwärts und gibt damit den kleinsten statt den größten Teiler zurück.
- Fehlende Hilfsfunktionen: `sum_product` ruft `product()` auf, das nicht definiert ist.
- Algorithmusverständnis: `fizz_buzz` zählt Zahlen statt Ziffern; `how_many_times` enthält einen Off-by-one-Fehler beim Substring-Suchen.
- `decode_cyclic` gibt denselben Code wie `encode_cyclic` zurück, ohne die inverse Operation zu implementieren.
Auffälligkeiten
Ein klares Muster in den Failures: Das Modell missversteht die Aufgabenspezifikation auf konzeptioneller Ebene (Zählung von Ziffern vs. Zahlen, kleinster vs. größter Teiler, Inverse einer Funktion). Zusätzlich fehlt bei einfachen Utility-Funktionen die Eigenimplementierung zugunsten nicht-existierender Built-ins. Die `parse_nested_parens`-Fehler deuten auf Schwächen bei zustandsbehafteter String-Verarbeitung hin.
Empfehlung
Den Sub-Bereich "algorithmische Korrektheit bei invertierten oder gespiegelten Operationen" sowie "Spezifikationsverständnis (Ziffer vs. Zahl, Min vs. Max)" gezielt mit Few-Shot-Prompting oder Chain-of-Thought-Anleitung untersuchen; alternativ Sampling-Temperatur leicht erhöhen (z. B. 0.2–0.4) und pass@k > 1 evaluieren.
Übersicht
164 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Filter zurücksetzen, um die 164 Samples zu sehen.
| |||||||