Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-12 19:42 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der Score von 0,485 deutet auf eine moderate Inferenzgeschwindigkeit hin, die unter dem angestrebten Referenzwert liegt.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures über alle sechs Prompts
- Korrekte und inhaltlich solide Antworten bei allen Prompt-Typen (kurz, mittel, lang)
- Stabile Ausgaben auch beim komplexesten Prompt (Quicksort-Pseudocode mit Erklärungen)
Schwächen
- Score von ~0,485 signalisiert, dass die Tokens/sec nur knapp unter der Hälfte des Benchmark-Maximums liegen
- Beim langen Quicksort-Prompt wurde die Antwort offenbar abgeschnitten (Pseudocode endet mitten im Satz), was auf ein Token-Limit oder Streaming-Problem hindeutet
Auffälligkeiten
Die abgeschnittene Quicksort-Antwort ist auffällig: Der Pseudocode bricht im Kommentar-Abschnitt der Partition-Funktion ab. Dies könnte auf eine zu niedrig gesetzte `max_tokens`-Grenze oder einen Streaming-Abbruch bei langen Outputs hinweisen. Alle anderen Antworten sind vollständig. Kein Muster bei bestimmten Sprachen oder Prompt-Stilen erkennbar.
Empfehlung
Den `max_tokens`-Parameter für den langen Prompt-Slot erhöhen und prüfen, ob der Streaming-Buffer bei längeren Ausgaben korrekt flusht. Zudem sollte die Rohzahl der Tokens/sec protokolliert werden, um den Score von 0,485 besser einordnen und gegebenenfalls Quantisierungsstufe oder Batch-Größe anpassen zu können.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 615 ms | 21.1 | 436 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 645 ms | 24.8 | 419 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 2054 ms | 55 | 417 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 2924 ms | 59.2 | 418 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 6801 ms | 64.3 | 433 ms | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 19912 ms | 66.5 | 527 ms | ||
|
Lade Detail …
|
|||||||