Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-10 17:12 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) vollständig bestanden. Das Modell qwen3.6-35b-a3b-tq3 lieferte bei allen Prompt-Typen korrekte und vollständige Antworten ohne Fehler.
Stärken
- Fehlerfreie Ausführung über alle sechs Prompts hinweg, keine Errors oder Failures
- Qualitativ hochwertige Antworten bei unterschiedlichen Aufgabentypen: Factual, technisch-erklärend und algorithmisch
Schwächen
- Eine Antwort (Quicksort-Pseudocode) bricht mitten im Satz ab, der Partition-Abschnitt ist unvollständig — mögliches Token-Limit-Problem bei langen Outputs
- Eine weitere Antwort (REST vs. GraphQL, Punkt 5 zu Caching) endet ebenfalls abrupt, was auf eine konsistente Trunkierung bei mittellangen bis langen Generierungen hindeutet
Auffälligkeiten
Es zeigt sich ein klares Muster: Beide Fälle mit abgeschnittenen Antworten betreffen technische, strukturierte Inhalte mit längerer erwarteter Ausgabe. Kurze Faktenfragen werden dagegen vollständig und korrekt beantwortet. Die Trunkierung tritt nicht bei Inhalten-, sondern bei Längengrenzen auf, was auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup hindeutet, nicht auf ein Modellproblem.
Empfehlung
`max_tokens` im Benchmark-Adapter erhöhen (empfohlen: mindestens 1024–2048 für mittlere und lange Prompts), um Trunkierungsartefakte zu vermeiden und den Throughput-Test unter realistischeren Bedingungen zu messen. Anschließend Tokens/sec separat für kurze, mittlere und lange Prompts auswerten.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 290 ms | 72.4 | — | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 208 ms | 38.5 | — | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 478 ms | 108.8 | — | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 977 ms | 134.1 | — | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 1750 ms | 146.3 | — | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 6504 ms | 156.5 | — | ||
|
Lade Detail …
|
|||||||