Samples · baseline.sanity

Run #25 · Adapter v1.0.0 · 3/3 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-10 16:15 · claude-sonnet-4-6

Zusammenfassung

Der Smoke-Test wurde mit einer Pass-Rate von 100 % vollständig bestanden. Alle drei trivialen Fragen wurden korrekt und formatkonform beantwortet.

Stärken

Perfekte Antwortgenauigkeit bei allen drei Testfällen
Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
Keine Errors und keine Failures, stabile Endpoint-Kommunikation

Schwächen

Keine Schwächen im Rahmen dieses Tests erkennbar

Auffälligkeiten

Keine auffälligen Muster in den Failures, da keine vorhanden sind. Die Antworten sind minimal und präzise, ohne unerwünschte Zusatztexte oder Erklärungen — was bei größeren Sprachmodellen nicht selbstverständlich ist.

Empfehlung

Den Sanity-Test als bestanden abhaken und den Fokus auf anspruchsvollere Sub-Benchmarks legen, etwa Reasoning, Instruction-Following bei komplexen Vorgaben oder mehrsprachige Prompts. Die Baseline ist solide, aussagekräftigere Erkenntnisse liefern nur tiefergehende Tests.

Übersicht

3 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 177 p95: 185 mean: 176

Tokens/s

p50: 6 mean: 9.3

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	sanity.0	passed	100%	Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts.	177 ms	5.6	—
Lade Detail …
	sanity.1	passed	100%	Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort.	166 ms	6	—
Lade Detail …
	sanity.2	passed	100%	Schreibe das Wort Pizza in Großbuchstaben.	186 ms	16.1	—
Lade Detail …