Samples · baseline.sanity

Run #51 · Adapter v1.0.0 · 0/3 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (3/3) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen korrekte, formatgetreue Antworten.

Stärken

  • Vollständige Trefferquote ohne Fehler oder Abweichungen
  • Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
  • Keine Inference-Fehler oder Timeouts aufgetreten

Schwächen

  • Keine Schwächen identifizierbar auf diesem Niveau — der Test ist bewusst trivial gehalten
  • Aussagekraft beschränkt sich auf grundlegende Funktionsfähigkeit des Endpoints

Auffälligkeiten

Keine Muster in Failures erkennbar, da ausnahmslos alle Antworten korrekt waren. Die Antworten sind minimal und exakt, es gibt keine Tendenz zu unnötigen Zusätzen oder Erklärungen — was bei Substring-Checks positiv ist.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: komplexere Sub-Benchmarks mit mehrschrittiger Reasoning-Anforderung, längeren Kontexten oder nicht-trivialen Formatvorgaben ausführen, um belastbare Aussagen über die tatsächliche Modellqualität des gpt-oss:20b zu gewinnen.

Übersicht

3 Samples
Verteilung
3
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 3
0.0 ────── 1.0
Latenz (ms)
p50: 549 p95: 593 mean: 532
Tokens/s
p50: 125.7 mean: 122.8
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Filter zurücksetzen, um die 3 Samples zu sehen.
0 von 3 Samples · Limit 200 Nächste ›