Samples · baseline.throughput
KI-Auswertung
Generiert 2026-05-11 15:56 · claude-sonnet-4-6Zusammenfassung
Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % und einem Score von 0,931 vollständig bestanden. Das Modell llama3.2-vision liefert unter realistischer Last solide Ergebnisse ohne Fehler oder Ausfälle.
Stärken
- Vollständige Fehlerfreiheit: 0 Errors, 0 Failures bei allen 6 Prompts
- Konsistente Qualität über alle Prompt-Längen hinweg (kurz, mittel, lang)
- Korrekte und strukturierte Antworten auf fachliche Fragen (Quicksort, REST vs. GraphQL)
Schwächen
- Score von 0,931 liegt leicht unter dem Optimum, was auf marginale Throughput-Einbußen hindeutet
- Lange Antworten (Quicksort-Pseudocode) wurden nicht vollständig abgeschlossen — die Erklärung bricht mitten im Satz ab
Auffälligkeiten
Bei der Quicksort-Antwort endet der Text abrupt bei „Tausche", was auf ein Truncation-Problem bei längeren Outputs hinweist. Dies könnte auf ein zu niedriges `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein und verfälscht möglicherweise den Throughput-Score nach unten.
Empfehlung
Das `max_tokens`-Limit für lange Prompts im Benchmark-Setup prüfen und ggf. anheben, um Truncation bei komplexen Antworten zu vermeiden. Anschließend den Throughput-Score erneut messen, um zu klären, ob das leichte Defizit von 0,069 gegenüber dem Maximum auf dieses Problem oder auf echte Latenz-Engpässe zurückzuführen ist.
Übersicht
6 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Filter zurücksetzen, um die 6 Samples zu sehen.
| |||||||