Samples · baseline.sanity
Run #51 · Adapter v1.0.0 · 3/3 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-11 15:56 · claude-sonnet-4-6Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (3/3) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen korrekte, formatgetreue Antworten.
Stärken
- Vollständige Trefferquote ohne Fehler oder Abweichungen
- Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
- Keine Inference-Fehler oder Timeouts aufgetreten
Schwächen
- Keine Schwächen identifizierbar auf diesem Niveau — der Test ist bewusst trivial gehalten
- Aussagekraft beschränkt sich auf grundlegende Funktionsfähigkeit des Endpoints
Auffälligkeiten
Keine Muster in Failures erkennbar, da ausnahmslos alle Antworten korrekt waren. Die Antworten sind minimal und exakt, es gibt keine Tendenz zu unnötigen Zusätzen oder Erklärungen — was bei Substring-Checks positiv ist.
Empfehlung
Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: komplexere Sub-Benchmarks mit mehrschrittiger Reasoning-Anforderung, längeren Kontexten oder nicht-trivialen Formatvorgaben ausführen, um belastbare Aussagen über die tatsächliche Modellqualität des gpt-oss:20b zu gewinnen.
Übersicht
3 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 549
p95: 593
mean: 532
Tokens/s
p50: 125.7
mean: 122.8
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| sanity.0 | passed | Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts. | 598 ms | 128.8 | — | ||
|
Lade Detail …
|
|||||||
| sanity.1 | passed | Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort. | 448 ms | 113.8 | — | ||
|
Lade Detail …
|
|||||||
| sanity.2 | passed | Schreibe das Wort Pizza in Großbuchstaben. | 549 ms | 125.7 | — | ||
|
Lade Detail …
|
|||||||