Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-12 19:40 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der erzielte Score von ca. 0,50 Tokens/sec-Normwert liegt im mittleren Bereich und gibt Anlass zur weiteren Betrachtung der absoluten Geschwindigkeit.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures bei allen sechs Prompts
- Korrekte und inhaltlich solide Antworten über alle Schwierigkeitsstufen hinweg (kurz, mittel, lang)
- Konsistente Antwortqualität unabhängig vom Prompt-Typ (Faktenfrage, Erklärung, technischer Vergleich)
Schwächen
- Score von 0,504 deutet auf moderate Inferenzgeschwindigkeit hin; das Modell schöpft den möglichen Durchsatz offenbar nicht voll aus
- Der lange Prompt (Quicksort-Pseudocode) zeigt eine abgeschnittene Antwort, was auf ein Truncation-Problem beim Streaming hinweisen könnte
Auffälligkeiten
Die Quicksort-Antwort endet mitten im Satz („– hier verwende ich die …") ohne abschließende Partition-Implementierung. Dies ist das einzige erkennbare Muster: bei längerem Output scheint der Stream vorzeitig zu enden, was entweder auf ein Token-Limit oder einen Streaming-Buffer-Fehler hindeutet. Kurze Prompts liefern vollständige Antworten ohne Auffälligkeiten.
Empfehlung
Den maximalen Output-Token-Grenzwert für lange Prompts erhöhen und prüfen, ob das Streaming-Buffer-Handling bei Antworten über einer bestimmten Länge korrekt konfiguriert ist. Anschließend den Throughput-Sub-Benchmark mit dem langen Prompt erneut ausführen, um festzustellen, ob Truncation die gemessenen Tokens/sec-Werte systematisch verzerrt.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 582 ms | 22.3 | 400 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 573 ms | 27.9 | 351 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 1961 ms | 57.6 | 354 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 2807 ms | 61.6 | 327 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 6616 ms | 66.1 | 338 ms | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 19781 ms | 66.9 | 379 ms | ||
|
Lade Detail …
|
|||||||