Samples · baseline.throughput

Run #52 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 93.1%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % und einem Score von 0,931 vollständig bestanden. Das Modell llama3.2-vision liefert unter realistischer Last solide Ergebnisse ohne Fehler oder Ausfälle.

Stärken

  • Vollständige Fehlerfreiheit: 0 Errors, 0 Failures bei allen 6 Prompts
  • Konsistente Qualität über alle Prompt-Längen hinweg (kurz, mittel, lang)
  • Korrekte und strukturierte Antworten auf fachliche Fragen (Quicksort, REST vs. GraphQL)

Schwächen

  • Score von 0,931 liegt leicht unter dem Optimum, was auf marginale Throughput-Einbußen hindeutet
  • Lange Antworten (Quicksort-Pseudocode) wurden nicht vollständig abgeschlossen — die Erklärung bricht mitten im Satz ab

Auffälligkeiten

Bei der Quicksort-Antwort endet der Text abrupt bei „Tausche", was auf ein Truncation-Problem bei längeren Outputs hinweist. Dies könnte auf ein zu niedriges `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein und verfälscht möglicherweise den Throughput-Score nach unten.

Empfehlung

Das `max_tokens`-Limit für lange Prompts im Benchmark-Setup prüfen und ggf. anheben, um Truncation bei komplexen Antworten zu vermeiden. Anschließend den Throughput-Score erneut messen, um zu klären, ob das leichte Defizit von 0,069 gegenüber dem Maximum auf dieses Problem oder auf echte Latenz-Engpässe zurückzuführen ist.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 477 p95: 3951 mean: 1431
Tokens/s
p50: 90.9 mean: 93.1
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 passed 100% Was ist 7 mal 8? 146 ms 47.9
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 168 ms 59.5
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 176 ms 56.8
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 777 ms 122.3
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 3079 ms 135.8
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 4241 ms 136.5
Lade Detail …