Samples · baseline.throughput

Run #57 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 46.2%

KI-Auswertung

Generiert 2026-05-11 19:02 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde fehlerfrei mit einer Pass-Rate von 1,0 abgeschlossen. Der erzielte Score von 0,46 entspricht etwa 46 % des Referenzwerts, was auf einen moderaten Durchsatz hinweist.

Stärken

Keine Fehler oder Ausfälle bei allen sechs Prompts unterschiedlicher Länge und Komplexität
Korrekte und inhaltlich vollständige Antworten auf alle Prompt-Typen (kurz, mittel, lang)

Schwächen

Score von 0,46 deutet darauf hin, dass das Modell nur knapp die Hälfte des Referenz-Durchsatzes erreicht
Bei langen Prompts (Quicksort-Pseudocode) wurde die Antwort offenbar abgeschnitten — der Pseudocode für die `partition`-Funktion endet mitten im Code

Auffälligkeiten

Der einzige strukturelle Ausreißer ist die abgeschnittene Quicksort-Antwort: Die `partition`-Prozedur bricht nach der Initialisierung von `i` ab. Dies könnte auf ein Token-Limit oder einen Streaming-Abbruch bei langen Antworten hinweisen, nicht auf inhaltliche Schwäche des Modells. Alle anderen Antworten sind vollständig. Zudem enthält das Modell in mehreren kurzen Antworten Emojis, was je nach Einsatzszenario unerwünscht sein kann.

Empfehlung

Den maximalen Output-Token-Limit für den langen Prompt-Typ erhöhen und prüfen, ob die abgeschnittene Ausgabe den Throughput-Score negativ beeinflusst. Zusätzlich empfiehlt sich ein direkter Vergleich mit einem kleineren oder stärker quantisierten Modell, um die Ursache des niedrigen Scores (Modellgröße vs. Quantisierung) zu isolieren.

Übersicht

6 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 2588 p95: 17839 mean: 5776

Tokens/s

p50: 53.9 mean: 46.2

TTFT (ms)

p50: 438 p95: 501

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	throughput.short.0	passed	100%	Was ist 7 mal 8?	618 ms	21	428 ms
Lade Detail …
	throughput.short.1	passed	100%	Was ist die Hauptstadt von Frankreich?	645 ms	24.8	414 ms
Lade Detail …
	throughput.short.2	passed	100%	Wie viele Beine hat eine Spinne?	1946 ms	52.9	362 ms
Lade Detail …
	throughput.medium.0	passed	100%	Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind.	3229 ms	54.8	517 ms
Lade Detail …
	throughput.medium.1	passed	100%	Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp…	6646 ms	60.5	453 ms
Lade Detail …
	throughput.long.0	passed	100%	Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. …	21570 ms	62.9	447 ms
Lade Detail …