Samples · baseline.throughput

Run #75 · Adapter v1.0.0 · 0/6 Samples angezeigt · Score 46.5%

KI-Auswertung

Generiert 2026-05-13 21:37 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der normalisierte Score von 0,465 deutet jedoch darauf hin, dass die absoluten Tokens/sec nur im mittleren Bereich des erwarteten Leistungsspektrums liegen.

Stärken

Vollständige Stabilität: keine Errors, keine Failures über alle sechs Prompt-Kategorien hinweg
Qualitativ korrekte und gut strukturierte Antworten bei allen Komplexitätsstufen (kurz, mittel, lang)

Schwächen

Score von 0,465 zeigt, dass der Durchsatz unter realistischer Last deutlich unter dem Referenzmaximum bleibt
Bei langen Prompts (Quicksort-Pseudocode) bricht die Antwort mitten im Code ab, was auf ein Truncation-Problem hindeutet

Auffälligkeiten

Die Quicksort-Antwort endet abrupt beim zweiten Schritt der Partition-Funktion, bevor der Algorithmus vollständig dargestellt ist. Dies ist konsistent mit einem Token-Limit- oder Streaming-Abbruch unter Last und kein inhaltlicher Fehler des Modells per se. Kurze Faktenfragen (Paris, 56, 8 Beine) werden erwartungsgemäß schnell und korrekt beantwortet, was auf gute Latenz bei niedrigem Token-Volumen hindeutet.

Empfehlung

Den maximalen Output-Token-Grenzwert im Streaming-Setup prüfen und ggf. erhöhen, um Truncation bei mittleren bis langen Antworten zu vermeiden. Zusätzlich sollte ein gezielter Throughput-Test mit ausschließlich langen Prompts durchgeführt werden, um zu klären, ob der niedrige Score primär auf reduzierte Tokens/sec bei hoher Last oder auf vorzeitige Abbrüche zurückzuführen ist.

Übersicht

6 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 2604 p95: 17389 mean: 5739

Tokens/s

p50: 54.7 mean: 46.5

TTFT (ms)

p50: 450 p95: 516

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 6 Samples zu sehen.

0 von 6 Samples · Limit 200 Nächste ›