Samples · baseline.throughput

Run #51 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Alle Prompts — kurz, mittel und lang — wurden korrekt und vollständig beantwortet, ohne Fehler oder Timeouts.

Stärken

  • Perfekte Erfolgsrate ohne Errors oder Failures über alle Schwierigkeitsstufen hinweg
  • Inhaltlich korrekte und gut strukturierte Antworten auf diverse Prompt-Typen (Fakten, Erklärungen, technische Pseudocode-Aufgaben)
  • Konsistente Ausgabequalität auch bei komplexeren Anfragen wie dem Quicksort-Pseudocode

Schwächen

  • Eine längere Antwort (Quicksort) wurde abgeschnitten — der Pseudocode endet mitten im Satz, was auf ein Token-Limit oder ein Streaming-Abbruchproblem hindeutet
  • Ebenso der REST/GraphQL-Vergleich bricht beim fünften Punkt ab, bevor der Resolver-Text vollständig ist
  • Die Bewertungslogik scheint Antwortabschneidung nicht als Fehler zu werten, was die Pass-Rate verzerrt

Auffälligkeiten

Bei mindestens zwei der sechs Antworten (Quicksort, REST vs. GraphQL) wurden Antworten vorzeitig abgeschnitten. Dieses Muster tritt bei längeren, strukturierten Ausgaben auf — vermutlich durch ein zu niedriges `max_tokens`-Limit im Benchmark-Setup. Die Bewertungsfunktion erkennt dies nicht als Failure, was zu einer irreführend hohen Score führt.

Empfehlung

Das `max_tokens`-Limit im Benchmark-Adapter erhöhen (mindestens verdoppeln für mittlere und lange Prompts) und die Evaluierungslogik um eine Prüfung auf abgeschnittene Ausgaben erweitern, damit Truncation als partielle Failure gewertet wird.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 1249 p95: 8096 mean: 2707
Tokens/s
p50: 143.7 mean: 141.5
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 passed 100% Was ist 7 mal 8? 458 ms 117.9
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 486 ms 121.4
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 627 ms 132.4
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 1871 ms 155
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 3012 ms 159
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 9790 ms 163.5
Lade Detail …