Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-13 21:37 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der normalisierte Score von 0,465 deutet jedoch darauf hin, dass die absoluten Tokens/sec nur im mittleren Bereich des erwarteten Leistungsspektrums liegen.
Stärken
- Vollständige Stabilität: keine Errors, keine Failures über alle sechs Prompt-Kategorien hinweg
- Qualitativ korrekte und gut strukturierte Antworten bei allen Komplexitätsstufen (kurz, mittel, lang)
Schwächen
- Score von 0,465 zeigt, dass der Durchsatz unter realistischer Last deutlich unter dem Referenzmaximum bleibt
- Bei langen Prompts (Quicksort-Pseudocode) bricht die Antwort mitten im Code ab, was auf ein Truncation-Problem hindeutet
Auffälligkeiten
Die Quicksort-Antwort endet abrupt beim zweiten Schritt der Partition-Funktion, bevor der Algorithmus vollständig dargestellt ist. Dies ist konsistent mit einem Token-Limit- oder Streaming-Abbruch unter Last und kein inhaltlicher Fehler des Modells per se. Kurze Faktenfragen (Paris, 56, 8 Beine) werden erwartungsgemäß schnell und korrekt beantwortet, was auf gute Latenz bei niedrigem Token-Volumen hindeutet.
Empfehlung
Den maximalen Output-Token-Grenzwert im Streaming-Setup prüfen und ggf. erhöhen, um Truncation bei mittleren bis langen Antworten zu vermeiden. Zusätzlich sollte ein gezielter Throughput-Test mit ausschließlich langen Prompts durchgeführt werden, um zu klären, ob der niedrige Score primär auf reduzierte Tokens/sec bei hoher Last oder auf vorzeitige Abbrüche zurückzuführen ist.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Filter zurücksetzen, um die 6 Samples zu sehen.
| |||||||