Samples · baseline.throughput

Run #52 · Adapter v1.0.0 · 0/6 Samples angezeigt · Score 93.1%

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % und einem Score von 0,931 vollständig bestanden. Das Modell llama3.2-vision liefert unter realistischer Last solide Ergebnisse ohne Fehler oder Ausfälle.

Stärken

Vollständige Fehlerfreiheit: 0 Errors, 0 Failures bei allen 6 Prompts
Konsistente Qualität über alle Prompt-Längen hinweg (kurz, mittel, lang)
Korrekte und strukturierte Antworten auf fachliche Fragen (Quicksort, REST vs. GraphQL)

Schwächen

Score von 0,931 liegt leicht unter dem Optimum, was auf marginale Throughput-Einbußen hindeutet
Lange Antworten (Quicksort-Pseudocode) wurden nicht vollständig abgeschlossen — die Erklärung bricht mitten im Satz ab

Auffälligkeiten

Bei der Quicksort-Antwort endet der Text abrupt bei „Tausche", was auf ein Truncation-Problem bei längeren Outputs hinweist. Dies könnte auf ein zu niedriges `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein und verfälscht möglicherweise den Throughput-Score nach unten.

Empfehlung

Das `max_tokens`-Limit für lange Prompts im Benchmark-Setup prüfen und ggf. anheben, um Truncation bei komplexen Antworten zu vermeiden. Anschließend den Throughput-Score erneut messen, um zu klären, ob das leichte Defizit von 0,069 gegenüber dem Maximum auf dieses Problem oder auf echte Latenz-Engpässe zurückzuführen ist.

Übersicht

6 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 477 p95: 3951 mean: 1431

Tokens/s

p50: 90.9 mean: 93.1

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 6 Samples zu sehen.

0 von 6 Samples · Limit 200 Nächste ›