Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-10 17:12 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) vollständig bestanden. Das Modell qwen3.6-35b-a3b-tq3 lieferte bei allen Prompt-Typen korrekte und vollständige Antworten ohne Fehler.
Stärken
- Fehlerfreie Ausführung über alle sechs Prompts hinweg, keine Errors oder Failures
- Qualitativ hochwertige Antworten bei unterschiedlichen Aufgabentypen: Factual, technisch-erklärend und algorithmisch
Schwächen
- Eine Antwort (Quicksort-Pseudocode) bricht mitten im Satz ab, der Partition-Abschnitt ist unvollständig — mögliches Token-Limit-Problem bei langen Outputs
- Eine weitere Antwort (REST vs. GraphQL, Punkt 5 zu Caching) endet ebenfalls abrupt, was auf eine konsistente Trunkierung bei mittellangen bis langen Generierungen hindeutet
Auffälligkeiten
Es zeigt sich ein klares Muster: Beide Fälle mit abgeschnittenen Antworten betreffen technische, strukturierte Inhalte mit längerer erwarteter Ausgabe. Kurze Faktenfragen werden dagegen vollständig und korrekt beantwortet. Die Trunkierung tritt nicht bei Inhalten-, sondern bei Längengrenzen auf, was auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup hindeutet, nicht auf ein Modellproblem.
Empfehlung
`max_tokens` im Benchmark-Adapter erhöhen (empfohlen: mindestens 1024–2048 für mittlere und lange Prompts), um Trunkierungsartefakte zu vermeiden und den Throughput-Test unter realistischeren Bedingungen zu messen. Anschließend Tokens/sec separat für kurze, mittlere und lange Prompts auswerten.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Filter zurücksetzen, um die 6 Samples zu sehen.
| |||||||