Samples · baseline.sanity

Run #52 · Adapter v1.0.0 · 0/3 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (3/3) fehlerfrei bestanden. Das Modell llama3.2-vision:latest antwortet auf triviale Fragen korrekt und instruktionskonform.

Stärken

Perfekte Trefferquote ohne Fehler oder Aussetzer
Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
Keine technischen Fehler oder leere Antworten

Schwächen

Keine Schwächen auf diesem Niveau erkennbar; der Test ist jedoch zu einfach, um Modellgrenzen aufzuzeigen

Auffälligkeiten

Keine negativen Muster erkennbar. Alle drei Antworten sind minimal und exakt, was auf gute Instruction-Following-Fähigkeiten bei kurzen, klaren Prompts hinweist.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Komplexere Sub-Benchmarks (z. B. mehrschrittige Reasoning-Aufgaben, lange Kontexte oder mehrsprachige Prompts) sollten als nächstes evaluiert werden, um tatsächliche Schwachstellen des Modells zu identifizieren.

Übersicht

3 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 115 p95: 131 mean: 121

Tokens/s

p50: 17.5 mean: 21.7

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 3 Samples zu sehen.

0 von 3 Samples · Limit 200 Nächste ›