Samples · baseline.throughput

Run #63 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 43.2%

KI-Auswertung

Generiert 2026-05-12 02:17 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Der erzielte Score von ~0,43 spiegelt die gemessene Token-Geschwindigkeit wider, die als moderater Wert einzustufen ist.

Stärken

Keine Fehler oder Failures in keiner der sechs Testinstanzen
Korrekte und qualitativ angemessene Antworten über alle Prompt-Längen hinweg (kurz, mittel, lang)
Robustheit über verschiedene Domänen: Mathematik, Geografie, Biologie, Informatik

Schwächen

Score von 0,432 deutet auf eine unterdurchschnittliche Token-Geschwindigkeit hin; ob dieser Wert ausreichend ist, hängt vom Ziel-SLA ab
Responses bei mittleren und langen Prompts (Quicksort, REST/GraphQL) wurden teilweise abgeschnitten, was auf Token-Limits oder Streaming-Abbrüche hinweist

Auffälligkeiten

Bei zwei längeren Antworten (Quicksort-Pseudocode, REST-vs-GraphQL) endet der Text mitten im Satz bzw. im Code-Block. Dies ist kein inhaltlicher Fehler im Sinne des Benchmarks, aber ein strukturelles Muster: Bei langen Outputs scheint die Antwort vorzeitig zu terminieren. Das könnte auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein.

Empfehlung

Das vorzeitige Abschneiden langer Antworten sollte untersucht werden: `max_tokens` im Benchmark-Adapter prüfen und ggf. erhöhen. Zudem sollte der Score von 0,432 gegen einen definierten Throughput-Schwellenwert (z. B. Tokens/sec-Zielwert) verglichen werden, um zu beurteilen, ob ein Wechsel auf eine leichtere Quantisierungsstufe (z. B. 4-Bit statt 8-Bit) sinnvoll ist.

Übersicht

6 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 3036 p95: 17752 mean: 6033

Tokens/s

p50: 52.9 mean: 43.2

TTFT (ms)

p50: 557 p95: 603

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	throughput.short.0	passed	100%	Was ist 7 mal 8?	919 ms	14.1	436 ms
Lade Detail …
	throughput.short.1	passed	100%	Was ist die Hauptstadt von Frankreich?	816 ms	17.2	605 ms
Lade Detail …
	throughput.short.2	passed	100%	Wie viele Beine hat eine Spinne?	2184 ms	50.8	505 ms
Lade Detail …
	throughput.medium.0	passed	100%	Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind.	3887 ms	55.1	595 ms
Lade Detail …
	throughput.medium.1	passed	100%	Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp…	7085 ms	59.6	579 ms
Lade Detail …
	throughput.long.0	passed	100%	Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. …	21308 ms	62.5	535 ms
Lade Detail …