Samples · baseline.sanity

Run #26 · Adapter v1.0.0 · 0/3 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-10 17:12 · claude-sonnet-4-6

Zusammenfassung

Das Modell qwen3.6-35b-a3b-tq3 besteht den Sanity-Benchmark mit einer perfekten Pass-Rate von 100 % (3/3). Alle drei trivialen Fragen wurden korrekt und im geforderten Format beantwortet.

Stärken

Vollständige Instruktionsfolge: Antworten sind präzise auf das Wesentliche reduziert, ohne unerwünschte Zusatzinformationen.
Null Fehler und Null Failures — der Endpoint ist grundsätzlich funktionsfähig und stabil.

Schwächen

Keine Schwächen im Rahmen dieses Sub-Benchmarks erkennbar.
Aussagekraft begrenzt: Drei Fragen sind kein belastbarer Beweis für robuste Leistung.

Auffälligkeiten

Keine Muster in Failures erkennbar, da keine Failures vorliegen. Die Antworten sind minimal und exakt — auffällig positiv im Vergleich zu Modellen, die trotz einfacher Instruktionen Zusatztexte generieren.

Empfehlung

Den Sanity-Test als bestanden abhaken und den Fokus auf anspruchsvollere Sub-Benchmarks legen (z. B. Reasoning, Instruction-Following bei komplexen Prompts oder mehrsprachige Szenarien). Die Quantisierung tq3 scheint für einfache Aufgaben keine Qualitätseinbußen zu verursachen — ein direkter Vergleich mit einer höherwertigen Quantisierungsstufe (z. B. tq4 oder fp16) auf schwierigeren Benchmarks wäre sinnvoll, um etwaige Degradationseffekte zu identifizieren.

Übersicht

3 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 173 p95: 187 mean: 177

Tokens/s

p50: 5.9 mean: 9.2

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 3 Samples zu sehen.

0 von 3 Samples · Limit 200 Nächste ›