Samples · baseline.throughput

Run #26 · Adapter v1.0.0 · 0/6 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-10 17:12 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) vollständig bestanden. Das Modell qwen3.6-35b-a3b-tq3 lieferte bei allen Prompt-Typen korrekte und vollständige Antworten ohne Fehler.

Stärken

Fehlerfreie Ausführung über alle sechs Prompts hinweg, keine Errors oder Failures
Qualitativ hochwertige Antworten bei unterschiedlichen Aufgabentypen: Factual, technisch-erklärend und algorithmisch

Schwächen

Eine Antwort (Quicksort-Pseudocode) bricht mitten im Satz ab, der Partition-Abschnitt ist unvollständig — mögliches Token-Limit-Problem bei langen Outputs
Eine weitere Antwort (REST vs. GraphQL, Punkt 5 zu Caching) endet ebenfalls abrupt, was auf eine konsistente Trunkierung bei mittellangen bis langen Generierungen hindeutet

Auffälligkeiten

Es zeigt sich ein klares Muster: Beide Fälle mit abgeschnittenen Antworten betreffen technische, strukturierte Inhalte mit längerer erwarteter Ausgabe. Kurze Faktenfragen werden dagegen vollständig und korrekt beantwortet. Die Trunkierung tritt nicht bei Inhalten-, sondern bei Längengrenzen auf, was auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup hindeutet, nicht auf ein Modellproblem.

Empfehlung

`max_tokens` im Benchmark-Adapter erhöhen (empfohlen: mindestens 1024–2048 für mittlere und lange Prompts), um Trunkierungsartefakte zu vermeiden und den Throughput-Test unter realistischeren Bedingungen zu messen. Anschließend Tokens/sec separat für kurze, mittlere und lange Prompts auswerten.

Übersicht

6 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 728 p95: 5316 mean: 1701

Tokens/s

p50: 121.4 mean: 109.4

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 6 Samples zu sehen.

0 von 6 Samples · Limit 200 Nächste ›