Samples · baseline.sanity
Run #52 · Adapter v1.0.0 · 0/3 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-11 15:56 · claude-sonnet-4-6Zusammenfassung
Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (3/3) fehlerfrei bestanden. Das Modell llama3.2-vision:latest antwortet auf triviale Fragen korrekt und instruktionskonform.
Stärken
- Perfekte Trefferquote ohne Fehler oder Aussetzer
- Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
- Keine technischen Fehler oder leere Antworten
Schwächen
- Keine Schwächen auf diesem Niveau erkennbar; der Test ist jedoch zu einfach, um Modellgrenzen aufzuzeigen
Auffälligkeiten
Keine negativen Muster erkennbar. Alle drei Antworten sind minimal und exakt, was auf gute Instruction-Following-Fähigkeiten bei kurzen, klaren Prompts hinweist.
Empfehlung
Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Komplexere Sub-Benchmarks (z. B. mehrschrittige Reasoning-Aufgaben, lange Kontexte oder mehrsprachige Prompts) sollten als nächstes evaluiert werden, um tatsächliche Schwachstellen des Modells zu identifizieren.
Übersicht
3 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 115
p95: 131
mean: 121
Tokens/s
p50: 17.5
mean: 21.7
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Filter zurücksetzen, um die 3 Samples zu sehen.
| |||||||
0 von 3 Samples · Limit 200
Nächste ›