Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-13 21:37 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der normalisierte Score von 0,465 deutet jedoch darauf hin, dass die absoluten Tokens/sec nur im mittleren Bereich des erwarteten Leistungsspektrums liegen.
Stärken
- Vollständige Stabilität: keine Errors, keine Failures über alle sechs Prompt-Kategorien hinweg
- Qualitativ korrekte und gut strukturierte Antworten bei allen Komplexitätsstufen (kurz, mittel, lang)
Schwächen
- Score von 0,465 zeigt, dass der Durchsatz unter realistischer Last deutlich unter dem Referenzmaximum bleibt
- Bei langen Prompts (Quicksort-Pseudocode) bricht die Antwort mitten im Code ab, was auf ein Truncation-Problem hindeutet
Auffälligkeiten
Die Quicksort-Antwort endet abrupt beim zweiten Schritt der Partition-Funktion, bevor der Algorithmus vollständig dargestellt ist. Dies ist konsistent mit einem Token-Limit- oder Streaming-Abbruch unter Last und kein inhaltlicher Fehler des Modells per se. Kurze Faktenfragen (Paris, 56, 8 Beine) werden erwartungsgemäß schnell und korrekt beantwortet, was auf gute Latenz bei niedrigem Token-Volumen hindeutet.
Empfehlung
Den maximalen Output-Token-Grenzwert im Streaming-Setup prüfen und ggf. erhöhen, um Truncation bei mittleren bis langen Antworten zu vermeiden. Zusätzlich sollte ein gezielter Throughput-Test mit ausschließlich langen Prompts durchgeführt werden, um zu klären, ob der niedrige Score primär auf reduzierte Tokens/sec bei hoher Last oder auf vorzeitige Abbrüche zurückzuführen ist.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 628 ms | 20.7 | 434 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 667 ms | 24 | 433 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 2123 ms | 53.2 | 418 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 3084 ms | 56.1 | 465 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 7116 ms | 61.4 | 466 ms | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 20813 ms | 63.6 | 532 ms | ||
|
Lade Detail …
|
|||||||