Samples · baseline.sanity
KI-Auswertung
Generiert 2026-05-13 21:38 · claude-sonnet-4-6Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (10/10) fehlerfrei bestanden. Das Modell liefert auf triviale Faktenfragen präzise, formatgerechte Antworten ohne Abweichungen.
Stärken
- Vollständige Formatdisziplin: Alle Antworten halten die Vorgabe (nur Zahl, nur ein Wort) exakt ein
- Keine Halluzinationen oder inhaltlichen Fehler bei keiner der zehn Fragen
- Null Fehler auf API- oder Inferenzebene, der Endpoint ist stabil erreichbar
Schwächen
- Keine Schwächen im Rahmen dieses Tests erkennbar
- Der Benchmark ist zu einfach, um belastbare Aussagen über Modellqualität zu treffen
Auffälligkeiten
Keine Muster in Failures erkennbar, da keine Failures aufgetreten sind. Auffällig positiv ist, dass das Modell bei Großbuchstaben-Aufgaben nicht das gesamte Wort mit Satzzeichen oder Erklärungen ergänzt hat — ein häufiger Stolperstein bei instruktionsarmen Prompts.
Empfehlung
Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Komplexere Sub-Benchmarks mit längeren Kontexten, mehrsprachigen Prompts oder logischen Schlussfolgerungsaufgaben sollten als nächstes ausgewertet werden, um aussagekräftigere Qualitätsmetriken zu erhalten. Der aktuelle Test liefert lediglich eine Grundabsicherung, keine differenzierte Leistungsbewertung.
Übersicht
10 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Filter zurücksetzen, um die 10 Samples zu sehen.
| |||||||