Samples · baseline.sanity
KI-Auswertung
Generiert 2026-05-10 17:12 · claude-sonnet-4-6Zusammenfassung
Das Modell qwen3.6-35b-a3b-tq3 besteht den Sanity-Benchmark mit einer perfekten Pass-Rate von 100 % (3/3). Alle drei trivialen Fragen wurden korrekt und im geforderten Format beantwortet.
Stärken
- Vollständige Instruktionsfolge: Antworten sind präzise auf das Wesentliche reduziert, ohne unerwünschte Zusatzinformationen.
- Null Fehler und Null Failures — der Endpoint ist grundsätzlich funktionsfähig und stabil.
Schwächen
- Keine Schwächen im Rahmen dieses Sub-Benchmarks erkennbar.
- Aussagekraft begrenzt: Drei Fragen sind kein belastbarer Beweis für robuste Leistung.
Auffälligkeiten
Keine Muster in Failures erkennbar, da keine Failures vorliegen. Die Antworten sind minimal und exakt — auffällig positiv im Vergleich zu Modellen, die trotz einfacher Instruktionen Zusatztexte generieren.
Empfehlung
Den Sanity-Test als bestanden abhaken und den Fokus auf anspruchsvollere Sub-Benchmarks legen (z. B. Reasoning, Instruction-Following bei komplexen Prompts oder mehrsprachige Szenarien). Die Quantisierung tq3 scheint für einfache Aufgaben keine Qualitätseinbußen zu verursachen — ein direkter Vergleich mit einer höherwertigen Quantisierungsstufe (z. B. tq4 oder fp16) auf schwierigeren Benchmarks wäre sinnvoll, um etwaige Degradationseffekte zu identifizieren.
Übersicht
3 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Filter zurücksetzen, um die 3 Samples zu sehen.
| |||||||