Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-12 02:17 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Der erzielte Score von ~0,43 spiegelt die gemessene Token-Geschwindigkeit wider, die als moderater Wert einzustufen ist.
Stärken
- Keine Fehler oder Failures in keiner der sechs Testinstanzen
- Korrekte und qualitativ angemessene Antworten über alle Prompt-Längen hinweg (kurz, mittel, lang)
- Robustheit über verschiedene Domänen: Mathematik, Geografie, Biologie, Informatik
Schwächen
- Score von 0,432 deutet auf eine unterdurchschnittliche Token-Geschwindigkeit hin; ob dieser Wert ausreichend ist, hängt vom Ziel-SLA ab
- Responses bei mittleren und langen Prompts (Quicksort, REST/GraphQL) wurden teilweise abgeschnitten, was auf Token-Limits oder Streaming-Abbrüche hinweist
Auffälligkeiten
Bei zwei längeren Antworten (Quicksort-Pseudocode, REST-vs-GraphQL) endet der Text mitten im Satz bzw. im Code-Block. Dies ist kein inhaltlicher Fehler im Sinne des Benchmarks, aber ein strukturelles Muster: Bei langen Outputs scheint die Antwort vorzeitig zu terminieren. Das könnte auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein.
Empfehlung
Das vorzeitige Abschneiden langer Antworten sollte untersucht werden: `max_tokens` im Benchmark-Adapter prüfen und ggf. erhöhen. Zudem sollte der Score von 0,432 gegen einen definierten Throughput-Schwellenwert (z. B. Tokens/sec-Zielwert) verglichen werden, um zu beurteilen, ob ein Wechsel auf eine leichtere Quantisierungsstufe (z. B. 4-Bit statt 8-Bit) sinnvoll ist.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 919 ms | 14.1 | 436 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 816 ms | 17.2 | 605 ms | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 2184 ms | 50.8 | 505 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 3887 ms | 55.1 | 595 ms | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 7085 ms | 59.6 | 579 ms | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 21308 ms | 62.5 | 535 ms | ||
|
Lade Detail …
|
|||||||