Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-12 02:18 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der erzielte Score von 0,436 deutet jedoch auf eine moderate Token-Generierungsgeschwindigkeit hin, die je nach Referenzwert als mittelmäßig einzustufen ist.
Stärken
- Vollständige Fehlerfreiheit: Null Errors, Null Failures über alle sechs Prompts
- Korrekte und inhaltlich konsistente Antworten über alle Schwierigkeitsstufen (kurz, mittel, lang)
Schwächen
- Score von 0,436 signalisiert, dass die Tokens/sec-Rate unter einem höheren Referenzwert liegt — das Modell ist nicht besonders schnell
- Bei längeren Antworten (z. B. Quicksort-Pseudocode) wurde die Ausgabe mid-Response abgeschnitten, was auf ein Token-Limit oder Buffer-Problem hinweisen könnte
Auffälligkeiten
Die Quicksort-Antwort endet mitten im Code-Block (`FUNCTION` ohne Body), was auf ein Hard-Cutoff beim Streaming hinweist. Alle anderen Antworten sind vollständig. Dieses Muster tritt ausschließlich beim längsten und komplexesten Prompt auf — ein Hinweis auf ein Output-Token-Limit-Problem bei langen Generierungen unter Streaming-Last.
Empfehlung
Den maximalen Output-Token-Grenzwert für das Modell erhöhen oder prüfen, ob der Streaming-Buffer bei langen Antworten vorzeitig geschlossen wird. Zusätzlich sollte der Score-Referenzwert (Tokens/sec-Ziel) dokumentiert werden, um einzuschätzen, ob ein Quantisierungswechsel (z. B. von 4-bit auf 8-bit oder umgekehrt) die Durchsatzrate verbessern kann.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 788 ms | 16.5 | 582 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 723 ms | 19.4 | 510 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 2224 ms | 49.9 | 503 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 3903 ms | 54.8 | 553 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 7085 ms | 59.6 | 488 ms | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 21598 ms | 61.6 | 583 ms | ||
|
Lade Detail …
|
|||||||