Samples · baseline.throughput

Run #67 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 50.4%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 19:40 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der erzielte Score von ca. 0,50 Tokens/sec-Normwert liegt im mittleren Bereich und gibt Anlass zur weiteren Betrachtung der absoluten Geschwindigkeit.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures bei allen sechs Prompts
  • Korrekte und inhaltlich solide Antworten über alle Schwierigkeitsstufen hinweg (kurz, mittel, lang)
  • Konsistente Antwortqualität unabhängig vom Prompt-Typ (Faktenfrage, Erklärung, technischer Vergleich)

Schwächen

  • Score von 0,504 deutet auf moderate Inferenzgeschwindigkeit hin; das Modell schöpft den möglichen Durchsatz offenbar nicht voll aus
  • Der lange Prompt (Quicksort-Pseudocode) zeigt eine abgeschnittene Antwort, was auf ein Truncation-Problem beim Streaming hinweisen könnte

Auffälligkeiten

Die Quicksort-Antwort endet mitten im Satz („– hier verwende ich die …") ohne abschließende Partition-Implementierung. Dies ist das einzige erkennbare Muster: bei längerem Output scheint der Stream vorzeitig zu enden, was entweder auf ein Token-Limit oder einen Streaming-Buffer-Fehler hindeutet. Kurze Prompts liefern vollständige Antworten ohne Auffälligkeiten.

Empfehlung

Den maximalen Output-Token-Grenzwert für lange Prompts erhöhen und prüfen, ob das Streaming-Buffer-Handling bei Antworten über einer bestimmten Länge korrekt konfiguriert ist. Anschließend den Throughput-Sub-Benchmark mit dem langen Prompt erneut ausführen, um festzustellen, ob Truncation die gemessenen Tokens/sec-Werte systematisch verzerrt.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 2384 p95: 16490 mean: 5387
Tokens/s
p50: 59.6 mean: 50.4
TTFT (ms)
p50: 353 p95: 395
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 passed 100% Was ist 7 mal 8? 582 ms 22.3 400 ms
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 573 ms 27.9 351 ms
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 1961 ms 57.6 354 ms
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 2807 ms 61.6 327 ms
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 6616 ms 66.1 338 ms
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 19781 ms 66.9 379 ms
Lade Detail …