Samples · baseline.sanity
Run #25 · Adapter v1.0.0 · 3/3 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-10 16:15 · claude-sonnet-4-6Zusammenfassung
Der Smoke-Test wurde mit einer Pass-Rate von 100 % vollständig bestanden. Alle drei trivialen Fragen wurden korrekt und formatkonform beantwortet.
Stärken
- Perfekte Antwortgenauigkeit bei allen drei Testfällen
- Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
- Keine Errors und keine Failures, stabile Endpoint-Kommunikation
Schwächen
- Keine Schwächen im Rahmen dieses Tests erkennbar
Auffälligkeiten
Keine auffälligen Muster in den Failures, da keine vorhanden sind. Die Antworten sind minimal und präzise, ohne unerwünschte Zusatztexte oder Erklärungen — was bei größeren Sprachmodellen nicht selbstverständlich ist.
Empfehlung
Den Sanity-Test als bestanden abhaken und den Fokus auf anspruchsvollere Sub-Benchmarks legen, etwa Reasoning, Instruction-Following bei komplexen Vorgaben oder mehrsprachige Prompts. Die Baseline ist solide, aussagekräftigere Erkenntnisse liefern nur tiefergehende Tests.
Übersicht
3 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 177
p95: 185
mean: 176
Tokens/s
p50: 6
mean: 9.3
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| sanity.0 | passed | Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts. | 177 ms | 5.6 | — | ||
|
Lade Detail …
|
|||||||
| sanity.1 | passed | Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort. | 166 ms | 6 | — | ||
|
Lade Detail …
|
|||||||
| sanity.2 | passed | Schreibe das Wort Pizza in Großbuchstaben. | 186 ms | 16.1 | — | ||
|
Lade Detail …
|
|||||||