Samples · baseline.throughput

Run #64 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 43.6%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 02:18 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der erzielte Score von 0,436 deutet jedoch auf eine moderate Token-Generierungsgeschwindigkeit hin, die je nach Referenzwert als mittelmäßig einzustufen ist.

Stärken

  • Vollständige Fehlerfreiheit: Null Errors, Null Failures über alle sechs Prompts
  • Korrekte und inhaltlich konsistente Antworten über alle Schwierigkeitsstufen (kurz, mittel, lang)

Schwächen

  • Score von 0,436 signalisiert, dass die Tokens/sec-Rate unter einem höheren Referenzwert liegt — das Modell ist nicht besonders schnell
  • Bei längeren Antworten (z. B. Quicksort-Pseudocode) wurde die Ausgabe mid-Response abgeschnitten, was auf ein Token-Limit oder Buffer-Problem hinweisen könnte

Auffälligkeiten

Die Quicksort-Antwort endet mitten im Code-Block (`FUNCTION` ohne Body), was auf ein Hard-Cutoff beim Streaming hinweist. Alle anderen Antworten sind vollständig. Dieses Muster tritt ausschließlich beim längsten und komplexesten Prompt auf — ein Hinweis auf ein Output-Token-Limit-Problem bei langen Generierungen unter Streaming-Last.

Empfehlung

Den maximalen Output-Token-Grenzwert für das Modell erhöhen oder prüfen, ob der Streaming-Buffer bei langen Antworten vorzeitig geschlossen wird. Zusätzlich sollte der Score-Referenzwert (Tokens/sec-Ziel) dokumentiert werden, um einzuschätzen, ob ein Quantisierungswechsel (z. B. von 4-bit auf 8-bit oder umgekehrt) die Durchsatzrate verbessern kann.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 3064 p95: 17970 mean: 6054
Tokens/s
p50: 52.4 mean: 43.6
TTFT (ms)
p50: 532 p95: 583
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 passed 100% Was ist 7 mal 8? 788 ms 16.5 582 ms
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 723 ms 19.4 510 ms
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 2224 ms 49.9 503 ms
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 3903 ms 54.8 553 ms
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 7085 ms 59.6 488 ms
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 21598 ms 61.6 583 ms
Lade Detail …