Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-10 16:15 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde vollständig bestanden: alle 6 Prompts wurden fehlerfrei verarbeitet, mit einer Pass-Rate von 1,0. Das Modell qwen3.6-35b-a3b-tq3 lieferte unter realistischer Last konsistente Ergebnisse über kurze, mittlere und lange Eingaben hinweg.
Stärken
- Null Fehler und Null Ausfälle über alle Prompt-Kategorien hinweg
- Antwortqualität ist durchgehend korrekt und aufgabengerecht, von einfachen Faktenfragen bis hin zu technischen Erklärungen
- Strukturierte Antworten (Pseudocode, Stichpunkte) werden korrekt formatiert
Schwächen
- Eine Antwort (Quicksort-Pseudocode) wurde offensichtlich abgeschnitten; der letzte Satz endet mitten im Wort ("E"), was auf ein Token-Limit oder einen Streaming-Abbruch hindeutet
- Eine weitere Antwort (REST vs. GraphQL) bricht ebenfalls mittendrin ab ("GraphQL bietet durch"), was denselben Verdacht erhärtet
Auffälligkeiten
Beide abgeschnittenen Antworten betreffen die längeren, strukturierten Prompts (Pseudocode, technischer Vergleich). Kurze Faktenfragen sind vollständig beantwortet. Das Muster deutet auf ein zu niedrig konfiguriertes `max_tokens`-Limit hin, nicht auf ein grundsätzliches Modellproblem.
Empfehlung
Das `max_tokens`-Limit für den Benchmark sollte für mittlere und lange Prompts erhöht werden (Empfehlung: mindestens 1024 Tokens), um Antwortabschneidungen zu vermeiden und die Throughput-Messung unter realistischen Bedingungen zu validieren.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 225 ms | 40 | — | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 215 ms | 37.2 | — | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 523 ms | 110.9 | — | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 789 ms | 129.3 | — | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 1747 ms | 146.5 | — | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 6509 ms | 157.3 | — | ||
|
Lade Detail …
|
|||||||