Samples · baseline.sanity

Run #75 · Adapter v1.0.0 · 0/10 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-13 21:38 · claude-sonnet-4-6

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Faktenfragen präzise, formatgerechte Antworten ohne Abweichungen.

Stärken

  • Vollständige Formatdisziplin: Alle Antworten halten die Vorgabe (nur Zahl, nur ein Wort) exakt ein
  • Keine Halluzinationen oder inhaltlichen Fehler bei keiner der zehn Fragen
  • Null Fehler auf API- oder Inferenzebene, der Endpoint ist stabil erreichbar

Schwächen

  • Keine Schwächen im Rahmen dieses Tests erkennbar
  • Der Benchmark ist zu einfach, um belastbare Aussagen über Modellqualität zu treffen

Auffälligkeiten

Keine Muster in Failures erkennbar, da keine Failures aufgetreten sind. Auffällig positiv ist, dass das Modell bei Großbuchstaben-Aufgaben nicht das gesamte Wort mit Satzzeichen oder Erklärungen ergänzt hat — ein häufiger Stolperstein bei instruktionsarmen Prompts.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Komplexere Sub-Benchmarks mit längeren Kontexten, mehrsprachigen Prompts oder logischen Schlussfolgerungsaufgaben sollten als nächstes ausgewertet werden, um aussagekräftigere Qualitätsmetriken zu erhalten. Der aktuelle Test liefert lediglich eine Grundabsicherung, keine differenzierte Leistungsbewertung.

Übersicht

10 Samples
Verteilung
10
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 10
0.0 ────── 1.0
Latenz (ms)
p50: 499 p95: 514 mean: 488
Tokens/s
p50: 5.3 mean: 5.3
TTFT (ms)
p50: 468 p95: 482
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Filter zurücksetzen, um die 10 Samples zu sehen.
0 von 10 Samples · Limit 200 ‹ Vorherige