Samples · baseline.sanity
Run #52 · Adapter v1.0.0 · 3/3 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-11 15:56 · claude-sonnet-4-6Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (3/3) fehlerfrei bestanden. Das Modell llama3.2-vision:latest antwortet auf triviale Fragen korrekt und instruktionskonform.
Stärken
- Perfekte Trefferquote ohne Fehler oder Aussetzer
- Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
- Keine technischen Fehler oder leere Antworten
Schwächen
- Keine Schwächen auf diesem Niveau erkennbar; der Test ist jedoch zu einfach, um Modellgrenzen aufzuzeigen
Auffälligkeiten
Keine negativen Muster erkennbar. Alle drei Antworten sind minimal und exakt, was auf gute Instruction-Following-Fähigkeiten bei kurzen, klaren Prompts hinweist.
Empfehlung
Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Komplexere Sub-Benchmarks (z. B. mehrschrittige Reasoning-Aufgaben, lange Kontexte oder mehrsprachige Prompts) sollten als nächstes evaluiert werden, um tatsächliche Schwachstellen des Modells zu identifizieren.
Übersicht
3 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 115
p95: 131
mean: 121
Tokens/s
p50: 17.5
mean: 21.7
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| sanity.0 | passed | Was ist 2 plus 2? Antworte nur mit der Zahl, sonst nichts. | 115 ms | 17.4 | — | ||
|
Lade Detail …
|
|||||||
| sanity.1 | passed | Was ist die Hauptstadt von Deutschland? Antworte mit einem einzigen Wort. | 114 ms | 17.5 | — | ||
|
Lade Detail …
|
|||||||
| sanity.2 | passed | Schreibe das Wort Pizza in Großbuchstaben. | 133 ms | 30.1 | — | ||
|
Lade Detail …
|
|||||||