Samples · baseline.sanity

Run #51 · Adapter v1.0.0 · 0/3 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (3/3) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen korrekte, formatgetreue Antworten.

Stärken

Vollständige Trefferquote ohne Fehler oder Abweichungen
Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
Keine Inference-Fehler oder Timeouts aufgetreten

Schwächen

Keine Schwächen identifizierbar auf diesem Niveau — der Test ist bewusst trivial gehalten
Aussagekraft beschränkt sich auf grundlegende Funktionsfähigkeit des Endpoints

Auffälligkeiten

Keine Muster in Failures erkennbar, da ausnahmslos alle Antworten korrekt waren. Die Antworten sind minimal und exakt, es gibt keine Tendenz zu unnötigen Zusätzen oder Erklärungen — was bei Substring-Checks positiv ist.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: komplexere Sub-Benchmarks mit mehrschrittiger Reasoning-Anforderung, längeren Kontexten oder nicht-trivialen Formatvorgaben ausführen, um belastbare Aussagen über die tatsächliche Modellqualität des gpt-oss:20b zu gewinnen.

Übersicht

3 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 549 p95: 593 mean: 532

Tokens/s

p50: 125.7 mean: 122.8

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 3 Samples zu sehen.

0 von 3 Samples · Limit 200 Nächste ›