Samples · baseline.throughput

Run #25 · Adapter v1.0.0 · 6/6 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-10 16:15 · claude-sonnet-4-6

Zusammenfassung

Der Throughput-Benchmark wurde vollständig bestanden: alle 6 Prompts wurden fehlerfrei verarbeitet, mit einer Pass-Rate von 1,0. Das Modell qwen3.6-35b-a3b-tq3 lieferte unter realistischer Last konsistente Ergebnisse über kurze, mittlere und lange Eingaben hinweg.

Stärken

Null Fehler und Null Ausfälle über alle Prompt-Kategorien hinweg
Antwortqualität ist durchgehend korrekt und aufgabengerecht, von einfachen Faktenfragen bis hin zu technischen Erklärungen
Strukturierte Antworten (Pseudocode, Stichpunkte) werden korrekt formatiert

Schwächen

Eine Antwort (Quicksort-Pseudocode) wurde offensichtlich abgeschnitten; der letzte Satz endet mitten im Wort ("E"), was auf ein Token-Limit oder einen Streaming-Abbruch hindeutet
Eine weitere Antwort (REST vs. GraphQL) bricht ebenfalls mittendrin ab ("GraphQL bietet durch"), was denselben Verdacht erhärtet

Auffälligkeiten

Beide abgeschnittenen Antworten betreffen die längeren, strukturierten Prompts (Pseudocode, technischer Vergleich). Kurze Faktenfragen sind vollständig beantwortet. Das Muster deutet auf ein zu niedrig konfiguriertes `max_tokens`-Limit hin, nicht auf ein grundsätzliches Modellproblem.

Empfehlung

Das `max_tokens`-Limit für den Benchmark sollte für mittlere und lange Prompts erhöht werden (Empfehlung: mindestens 1024 Tokens), um Antwortabschneidungen zu vermeiden und die Throughput-Messung unter realistischen Bedingungen zu validieren.

Übersicht

6 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 656 p95: 5319 mean: 1668

Tokens/s

p50: 120.1 mean: 103.5

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	throughput.short.0	passed	100%	Was ist 7 mal 8?	225 ms	40	—
Lade Detail …
	throughput.short.1	passed	100%	Was ist die Hauptstadt von Frankreich?	215 ms	37.2	—
Lade Detail …
	throughput.short.2	passed	100%	Wie viele Beine hat eine Spinne?	523 ms	110.9	—
Lade Detail …
	throughput.medium.0	passed	100%	Erkläre Photosynthese in einem kurzen Absatz für ein 12-jähriges Kind.	789 ms	129.3	—
Lade Detail …
	throughput.medium.1	passed	100%	Beschreibe die wichtigsten Unterschiede zwischen REST und GraphQL in fünf Stichp…	1747 ms	146.5	—
Lade Detail …
	throughput.long.0	passed	100%	Schreibe einen detaillierten Pseudocode für Quicksort. Wähle In-Place-Variante. …	6509 ms	157.3	—
Lade Detail …