Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-11 15:56 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % und einem Score von 0,931 vollständig bestanden. Das Modell llama3.2-vision liefert unter realistischer Last solide Ergebnisse ohne Fehler oder Ausfälle.
Stärken
- Vollständige Fehlerfreiheit: 0 Errors, 0 Failures bei allen 6 Prompts
- Konsistente Qualität über alle Prompt-Längen hinweg (kurz, mittel, lang)
- Korrekte und strukturierte Antworten auf fachliche Fragen (Quicksort, REST vs. GraphQL)
Schwächen
- Score von 0,931 liegt leicht unter dem Optimum, was auf marginale Throughput-Einbußen hindeutet
- Lange Antworten (Quicksort-Pseudocode) wurden nicht vollständig abgeschlossen — die Erklärung bricht mitten im Satz ab
Auffälligkeiten
Bei der Quicksort-Antwort endet der Text abrupt bei „Tausche", was auf ein Truncation-Problem bei längeren Outputs hinweist. Dies könnte auf ein zu niedriges `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein und verfälscht möglicherweise den Throughput-Score nach unten.
Empfehlung
Das `max_tokens`-Limit für lange Prompts im Benchmark-Setup prüfen und ggf. anheben, um Truncation bei komplexen Antworten zu vermeiden. Anschließend den Throughput-Score erneut messen, um zu klären, ob das leichte Defizit von 0,069 gegenüber dem Maximum auf dieses Problem oder auf echte Latenz-Engpässe zurückzuführen ist.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| throughput.short.0 | passed | Was ist 7 mal 8? | 146 ms | 47.9 | — | ||
|
Lade Detail …
|
|||||||
| throughput.short.1 | passed | Was ist die Hauptstadt von Frankreich? | 168 ms | 59.5 | — | ||
|
Lade Detail …
|
|||||||
| throughput.short.2 | passed | Wie viele Beine hat eine Spinne? | 176 ms | 56.8 | — | ||
|
Lade Detail …
|
|||||||
| throughput.medium.0 | passed | Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. | 777 ms | 122.3 | — | ||
|
Lade Detail …
|
|||||||
| throughput.medium.1 | passed | Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… | 3079 ms | 135.8 | — | ||
|
Lade Detail …
|
|||||||
| throughput.long.0 | passed | Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … | 4241 ms | 136.5 | — | ||
|
Lade Detail …
|
|||||||