Samples · baseline.sanity

Run #75 · Adapter v1.0.0 · 0/10 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-13 21:38 · claude-sonnet-4-6

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Faktenfragen präzise, formatgerechte Antworten ohne Abweichungen.

Stärken

Vollständige Formatdisziplin: Alle Antworten halten die Vorgabe (nur Zahl, nur ein Wort) exakt ein
Keine Halluzinationen oder inhaltlichen Fehler bei keiner der zehn Fragen
Null Fehler auf API- oder Inferenzebene, der Endpoint ist stabil erreichbar

Schwächen

Keine Schwächen im Rahmen dieses Tests erkennbar
Der Benchmark ist zu einfach, um belastbare Aussagen über Modellqualität zu treffen

Auffälligkeiten

Keine Muster in Failures erkennbar, da keine Failures aufgetreten sind. Auffällig positiv ist, dass das Modell bei Großbuchstaben-Aufgaben nicht das gesamte Wort mit Satzzeichen oder Erklärungen ergänzt hat — ein häufiger Stolperstein bei instruktionsarmen Prompts.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Komplexere Sub-Benchmarks mit längeren Kontexten, mehrsprachigen Prompts oder logischen Schlussfolgerungsaufgaben sollten als nächstes ausgewertet werden, um aussagekräftigere Qualitätsmetriken zu erhalten. Der aktuelle Test liefert lediglich eine Grundabsicherung, keine differenzierte Leistungsbewertung.

Übersicht

10 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 499 p95: 514 mean: 488

Tokens/s

p50: 5.3 mean: 5.3

TTFT (ms)

p50: 468 p95: 482

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 10 Samples zu sehen.

0 von 10 Samples · Limit 200 ‹ Vorherige