Samples · baseline.throughput

Run #75 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 46.5%

KI-Auswertung

Generiert 2026-05-13 21:37 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) ohne Fehler abgeschlossen. Der normalisierte Score von 0,465 deutet jedoch darauf hin, dass die absoluten Tokens/sec nur im mittleren Bereich des erwarteten Leistungsspektrums liegen.

Stärken

Vollständige Stabilität: keine Errors, keine Failures über alle sechs Prompt-Kategorien hinweg
Qualitativ korrekte und gut strukturierte Antworten bei allen Komplexitätsstufen (kurz, mittel, lang)

Schwächen

Score von 0,465 zeigt, dass der Durchsatz unter realistischer Last deutlich unter dem Referenzmaximum bleibt
Bei langen Prompts (Quicksort-Pseudocode) bricht die Antwort mitten im Code ab, was auf ein Truncation-Problem hindeutet

Auffälligkeiten

Die Quicksort-Antwort endet abrupt beim zweiten Schritt der Partition-Funktion, bevor der Algorithmus vollständig dargestellt ist. Dies ist konsistent mit einem Token-Limit- oder Streaming-Abbruch unter Last und kein inhaltlicher Fehler des Modells per se. Kurze Faktenfragen (Paris, 56, 8 Beine) werden erwartungsgemäß schnell und korrekt beantwortet, was auf gute Latenz bei niedrigem Token-Volumen hindeutet.

Empfehlung

Den maximalen Output-Token-Grenzwert im Streaming-Setup prüfen und ggf. erhöhen, um Truncation bei mittleren bis langen Antworten zu vermeiden. Zusätzlich sollte ein gezielter Throughput-Test mit ausschließlich langen Prompts durchgeführt werden, um zu klären, ob der niedrige Score primär auf reduzierte Tokens/sec bei hoher Last oder auf vorzeitige Abbrüche zurückzuführen ist.

Übersicht

6 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 2604 p95: 17389 mean: 5739

Tokens/s

p50: 54.7 mean: 46.5

TTFT (ms)

p50: 450 p95: 516

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	throughput.short.0	passed	100%	Was ist 7 mal 8?	628 ms	20.7	434 ms
Lade Detail …
	throughput.short.1	passed	100%	Was ist die Hauptstadt von Frankreich?	667 ms	24	433 ms
Lade Detail …
	throughput.short.2	passed	100%	Wie viele Beine hat eine Spinne?	2123 ms	53.2	418 ms
Lade Detail …
	throughput.medium.0	passed	100%	Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind.	3084 ms	56.1	465 ms
Lade Detail …
	throughput.medium.1	passed	100%	Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp…	7116 ms	61.4	466 ms
Lade Detail …
	throughput.long.0	passed	100%	Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. …	20813 ms	63.6	532 ms
Lade Detail …