Samples · baseline.throughput

Run #51 · Adapter v1.0.0 · 0/6 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Alle Prompts — kurz, mittel und lang — wurden korrekt und vollständig beantwortet, ohne Fehler oder Timeouts.

Stärken

Perfekte Erfolgsrate ohne Errors oder Failures über alle Schwierigkeitsstufen hinweg
Inhaltlich korrekte und gut strukturierte Antworten auf diverse Prompt-Typen (Fakten, Erklärungen, technische Pseudocode-Aufgaben)
Konsistente Ausgabequalität auch bei komplexeren Anfragen wie dem Quicksort-Pseudocode

Schwächen

Eine längere Antwort (Quicksort) wurde abgeschnitten — der Pseudocode endet mitten im Satz, was auf ein Token-Limit oder ein Streaming-Abbruchproblem hindeutet
Ebenso der REST/GraphQL-Vergleich bricht beim fünften Punkt ab, bevor der Resolver-Text vollständig ist
Die Bewertungslogik scheint Antwortabschneidung nicht als Fehler zu werten, was die Pass-Rate verzerrt

Auffälligkeiten

Bei mindestens zwei der sechs Antworten (Quicksort, REST vs. GraphQL) wurden Antworten vorzeitig abgeschnitten. Dieses Muster tritt bei längeren, strukturierten Ausgaben auf — vermutlich durch ein zu niedriges `max_tokens`-Limit im Benchmark-Setup. Die Bewertungsfunktion erkennt dies nicht als Failure, was zu einer irreführend hohen Score führt.

Empfehlung

Das `max_tokens`-Limit im Benchmark-Adapter erhöhen (mindestens verdoppeln für mittlere und lange Prompts) und die Evaluierungslogik um eine Prüfung auf abgeschnittene Ausgaben erweitern, damit Truncation als partielle Failure gewertet wird.

Übersicht

6 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 1249 p95: 8096 mean: 2707

Tokens/s

p50: 143.7 mean: 141.5

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 6 Samples zu sehen.

0 von 6 Samples · Limit 200 Nächste ›