Samples · baseline.throughput

Run #26 · Adapter v1.0.0 · 0/6 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-10 17:12 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) vollständig bestanden. Das Modell qwen3.6-35b-a3b-tq3 lieferte bei allen Prompt-Typen korrekte und vollständige Antworten ohne Fehler.

Stärken

  • Fehlerfreie Ausführung über alle sechs Prompts hinweg, keine Errors oder Failures
  • Qualitativ hochwertige Antworten bei unterschiedlichen Aufgabentypen: Factual, technisch-erklärend und algorithmisch

Schwächen

  • Eine Antwort (Quicksort-Pseudocode) bricht mitten im Satz ab, der Partition-Abschnitt ist unvollständig — mögliches Token-Limit-Problem bei langen Outputs
  • Eine weitere Antwort (REST vs. GraphQL, Punkt 5 zu Caching) endet ebenfalls abrupt, was auf eine konsistente Trunkierung bei mittellangen bis langen Generierungen hindeutet

Auffälligkeiten

Es zeigt sich ein klares Muster: Beide Fälle mit abgeschnittenen Antworten betreffen technische, strukturierte Inhalte mit längerer erwarteter Ausgabe. Kurze Faktenfragen werden dagegen vollständig und korrekt beantwortet. Die Trunkierung tritt nicht bei Inhalten-, sondern bei Längengrenzen auf, was auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup hindeutet, nicht auf ein Modellproblem.

Empfehlung

`max_tokens` im Benchmark-Adapter erhöhen (empfohlen: mindestens 1024–2048 für mittlere und lange Prompts), um Trunkierungsartefakte zu vermeiden und den Throughput-Test unter realistischeren Bedingungen zu messen. Anschließend Tokens/sec separat für kurze, mittlere und lange Prompts auswerten.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 728 p95: 5316 mean: 1701
Tokens/s
p50: 121.4 mean: 109.4
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Filter zurücksetzen, um die 6 Samples zu sehen.
0 von 6 Samples · Limit 200 Nächste ›