Samples · baseline.throughput

Run #75 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 46.5%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-13 21:37 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der normalisierte Score von 0,465 deutet jedoch darauf hin, dass die absoluten Tokens/sec nur im mittleren Bereich des erwarteten Leistungsspektrums liegen.

Stärken

  • Vollständige Stabilität: keine Errors, keine Failures über alle sechs Prompt-Kategorien hinweg
  • Qualitativ korrekte und gut strukturierte Antworten bei allen Komplexitätsstufen (kurz, mittel, lang)

Schwächen

  • Score von 0,465 zeigt, dass der Durchsatz unter realistischer Last deutlich unter dem Referenzmaximum bleibt
  • Bei langen Prompts (Quicksort-Pseudocode) bricht die Antwort mitten im Code ab, was auf ein Truncation-Problem hindeutet

Auffälligkeiten

Die Quicksort-Antwort endet abrupt beim zweiten Schritt der Partition-Funktion, bevor der Algorithmus vollständig dargestellt ist. Dies ist konsistent mit einem Token-Limit- oder Streaming-Abbruch unter Last und kein inhaltlicher Fehler des Modells per se. Kurze Faktenfragen (Paris, 56, 8 Beine) werden erwartungsgemäß schnell und korrekt beantwortet, was auf gute Latenz bei niedrigem Token-Volumen hindeutet.

Empfehlung

Den maximalen Output-Token-Grenzwert im Streaming-Setup prüfen und ggf. erhöhen, um Truncation bei mittleren bis langen Antworten zu vermeiden. Zusätzlich sollte ein gezielter Throughput-Test mit ausschließlich langen Prompts durchgeführt werden, um zu klären, ob der niedrige Score primär auf reduzierte Tokens/sec bei hoher Last oder auf vorzeitige Abbrüche zurückzuführen ist.

Übersicht

6 Samples
Verteilung
6
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 6
0.0 ────── 1.0
Latenz (ms)
p50: 2604 p95: 17389 mean: 5739
Tokens/s
p50: 54.7 mean: 46.5
TTFT (ms)
p50: 450 p95: 516
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
throughput.short.0 passed 100% Was ist 7 mal 8? 628 ms 20.7 434 ms
Lade Detail …
throughput.short.1 passed 100% Was ist die Hauptstadt von Frankreich? 667 ms 24 433 ms
Lade Detail …
throughput.short.2 passed 100% Wie viele Beine hat eine Spinne? 2123 ms 53.2 418 ms
Lade Detail …
throughput.medium.0 passed 100% Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind. 3084 ms 56.1 465 ms
Lade Detail …
throughput.medium.1 passed 100% Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp… 7116 ms 61.4 466 ms
Lade Detail …
throughput.long.0 passed 100% Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. … 20813 ms 63.6 532 ms
Lade Detail …