Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-11 15:56 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Alle Prompts — kurz, mittel und lang — wurden korrekt und vollständig beantwortet, ohne Fehler oder Timeouts.
Stärken
- Perfekte Erfolgsrate ohne Errors oder Failures über alle Schwierigkeitsstufen hinweg
- Inhaltlich korrekte und gut strukturierte Antworten auf diverse Prompt-Typen (Fakten, Erklärungen, technische Pseudocode-Aufgaben)
- Konsistente Ausgabequalität auch bei komplexeren Anfragen wie dem Quicksort-Pseudocode
Schwächen
- Eine längere Antwort (Quicksort) wurde abgeschnitten — der Pseudocode endet mitten im Satz, was auf ein Token-Limit oder ein Streaming-Abbruchproblem hindeutet
- Ebenso der REST/GraphQL-Vergleich bricht beim fünften Punkt ab, bevor der Resolver-Text vollständig ist
- Die Bewertungslogik scheint Antwortabschneidung nicht als Fehler zu werten, was die Pass-Rate verzerrt
Auffälligkeiten
Bei mindestens zwei der sechs Antworten (Quicksort, REST vs. GraphQL) wurden Antworten vorzeitig abgeschnitten. Dieses Muster tritt bei längeren, strukturierten Ausgaben auf — vermutlich durch ein zu niedriges `max_tokens`-Limit im Benchmark-Setup. Die Bewertungsfunktion erkennt dies nicht als Failure, was zu einer irreführend hohen Score führt.
Empfehlung
Das `max_tokens`-Limit im Benchmark-Adapter erhöhen (mindestens verdoppeln für mittlere und lange Prompts) und die Evaluierungslogik um eine Prüfung auf abgeschnittene Ausgaben erweitern, damit Truncation als partielle Failure gewertet wird.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 458 ms | 117.9 | — | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 486 ms | 121.4 | — | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 627 ms | 132.4 | — | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 1871 ms | 155 | — | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 3012 ms | 159 | — | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 9790 ms | 163.5 | — | ||
|
Lade Detail …
|
|||||||