Run #26 🔒

qwen3.6-35b-a3b-tq3 TurboQant3 · llama-tq3 · gestartet 2026-05-10 16:26:39
completed
Aktueller Adapter lm_eval_harness.ifeval
Samples 715 / 715 (100%)
Errors 541
Letzter Heartbeat 17:11:58
Beendet 2026-05-10 17:11:58
Cold-Start TTFT
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

151ms
Antwortzeit gesamt · 100% pass · ↑ 0%
1 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte auf den minimalen Prompt „Antworte nur mit OK." korrekt und ohne Fehler die erwartete Antwort.

Stärken

  • Perfekte Pass-Rate (1/1) ohne Fehler oder Failures
  • Modell folgt der Instruktion exakt und produziert keine überschüssigen Tokens

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen
  • Kein absoluter TTFT-Zahlenwert im Report — die eigentliche Latenzmetrik ist nicht quantifizierbar

Auffälligkeiten

Keine Fehler oder Muster erkennbar. Bei einer einzigen Messung ist eine Mustererkennung strukturell nicht möglich. Es ist unklar, ob der Benchmark tatsächlich die Latenz bis zum ersten Stream-Token misst oder nur die funktionale Korrektheit der Antwort.

Empfehlung

Den Benchmark um mindestens 10–20 Wiederholungen erweitern und die tatsächlichen TTFT-Werte in Millisekunden als Metrik erfassen und auswerten. Ohne rohe Zeitwerte misst der Test de facto nur Antwort-Korrektheit, nicht Cold-Start-Latenz — das widerspricht dem erklärten Ziel des Sub-Benchmarks.

Sanity — Substring-Checks
Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%
↑ 0%
3 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Das Modell qwen3.6-35b-a3b-tq3 besteht den Sanity-Benchmark mit einer perfekten Pass-Rate von 100 % (3/3). Alle drei trivialen Fragen wurden korrekt und im geforderten Format beantwortet.

Stärken

  • Vollständige Instruktionsfolge: Antworten sind präzise auf das Wesentliche reduziert, ohne unerwünschte Zusatzinformationen.
  • Null Fehler und Null Failures — der Endpoint ist grundsätzlich funktionsfähig und stabil.

Schwächen

  • Keine Schwächen im Rahmen dieses Sub-Benchmarks erkennbar.
  • Aussagekraft begrenzt: Drei Fragen sind kein belastbarer Beweis für robuste Leistung.

Auffälligkeiten

Keine Muster in Failures erkennbar, da keine Failures vorliegen. Die Antworten sind minimal und exakt — auffällig positiv im Vergleich zu Modellen, die trotz einfacher Instruktionen Zusatztexte generieren.

Empfehlung

Den Sanity-Test als bestanden abhaken und den Fokus auf anspruchsvollere Sub-Benchmarks legen (z. B. Reasoning, Instruction-Following bei komplexen Prompts oder mehrsprachige Szenarien). Die Quantisierung tq3 scheint für einfache Aufgaben keine Qualitätseinbußen zu verursachen — ein direkter Vergleich mit einer höherwertigen Quantisierungsstufe (z. B. tq4 oder fp16) auf schwierigeren Benchmarks wäre sinnvoll, um etwaige Degradationseffekte zu identifizieren.

Throughput — Tokens/sec
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

121.4t/s
Tokens/sec (p50) · 100% pass · ↑ 0%
6 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) vollständig bestanden. Das Modell qwen3.6-35b-a3b-tq3 lieferte bei allen Prompt-Typen korrekte und vollständige Antworten ohne Fehler.

Stärken

  • Fehlerfreie Ausführung über alle sechs Prompts hinweg, keine Errors oder Failures
  • Qualitativ hochwertige Antworten bei unterschiedlichen Aufgabentypen: Factual, technisch-erklärend und algorithmisch

Schwächen

  • Eine Antwort (Quicksort-Pseudocode) bricht mitten im Satz ab, der Partition-Abschnitt ist unvollständig — mögliches Token-Limit-Problem bei langen Outputs
  • Eine weitere Antwort (REST vs. GraphQL, Punkt 5 zu Caching) endet ebenfalls abrupt, was auf eine konsistente Trunkierung bei mittellangen bis langen Generierungen hindeutet

Auffälligkeiten

Es zeigt sich ein klares Muster: Beide Fälle mit abgeschnittenen Antworten betreffen technische, strukturierte Inhalte mit längerer erwarteter Ausgabe. Kurze Faktenfragen werden dagegen vollständig und korrekt beantwortet. Die Trunkierung tritt nicht bei Inhalten-, sondern bei Längengrenzen auf, was auf ein zu niedrig gesetztes `max_tokens`-Limit im Benchmark-Setup hindeutet, nicht auf ein Modellproblem.

Empfehlung

`max_tokens` im Benchmark-Adapter erhöhen (empfohlen: mindestens 1024–2048 für mittlere und lange Prompts), um Trunkierungsartefakte zu vermeiden und den Throughput-Test unter realistischeren Bedingungen zu messen. Anschließend Tokens/sec separat für kurze, mittlere und lange Prompts auswerten.

humaneval
lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag
56.7%
93 ok · 71 failed
KI-Bewertung anzeigen

Zusammenfassung

Das Modell qwen3.6-35b-a3b-tq3 erreicht eine Pass-Rate von 56,7 % auf HumanEval, was für ein quantisiertes Modell dieser Größe ein mittelmäßiges Ergebnis darstellt — rund 44 % der 164 Aufgaben werden nicht korrekt gelöst.

Stärken

  • Einfache algorithmische Aufgaben (Bitoperationen, Palindrom-Zählung, Sortierung nach Binärdarstellung) werden zuverlässig gelöst.
  • Keine Laufzeitfehler (0 Errors), das Modell liefert stets syntaktisch validen Python-Code.
  • Kurze, prägnante Implementierungen ohne unnötigen Overhead.

Schwächen

  • Logikfehler bei Teilaufgaben: `largest_divisor` iteriert von 1 aufwärts statt von n-1 abwärts und gibt damit den kleinsten statt den größten Teiler zurück.
  • Fehlende Hilfsfunktionen: `sum_product` ruft `product()` auf, das nicht definiert ist.
  • Algorithmusverständnis: `fizz_buzz` zählt Zahlen statt Ziffern; `how_many_times` enthält einen Off-by-one-Fehler beim Substring-Suchen.
  • `decode_cyclic` gibt denselben Code wie `encode_cyclic` zurück, ohne die inverse Operation zu implementieren.

Auffälligkeiten

Ein klares Muster in den Failures: Das Modell missversteht die Aufgabenspezifikation auf konzeptioneller Ebene (Zählung von Ziffern vs. Zahlen, kleinster vs. größter Teiler, Inverse einer Funktion). Zusätzlich fehlt bei einfachen Utility-Funktionen die Eigenimplementierung zugunsten nicht-existierender Built-ins. Die `parse_nested_parens`-Fehler deuten auf Schwächen bei zustandsbehafteter String-Verarbeitung hin.

Empfehlung

Den Sub-Bereich "algorithmische Korrektheit bei invertierten oder gespiegelten Operationen" sowie "Spezifikationsverständnis (Ziffer vs. Zahl, Min vs. Max)" gezielt mit Few-Shot-Prompting oder Chain-of-Thought-Anleitung untersuchen; alternativ Sampling-Temperatur leicht erhöhen (z. B. 0.2–0.4) und pass@k > 1 evaluieren.

IFEval — Instruction Following
lm-evaluation-harness · v1.0.0+humaneval-unsafe-flag
⚠ 541

Folgt das Modell strikten Anweisungen ohne Eigeninterpretation?

0 ok · 0 failed · 541 errors
KI-Bewertung anzeigen

Zusammenfassung

Der Sub-Benchmark IFEval konnte für das Modell qwen3.6-35b-a3b-tq3 nicht ausgewertet werden, da sämtliche 541 Anfragen mit Fehlern endeten und keine Pass-Rate berechnet werden konnte.

Stärken

  • Keine messbaren Stärken ermittelbar, da keine erfolgreichen Auswertungen vorliegen.
  • Die Prompts selbst sind korrekt strukturiert und wurden an das Modell übermittelt.

Schwächen

  • 541 Fehler bei 0 erfolgreichen Auswertungen entspricht einer vollständigen Ausfallrate.
  • Kein einziges Ergebnis konnte gescoret werden, was jede Aussage über Instruction-Following unmöglich macht.

Auffälligkeiten

Auffällig ist, dass alle Fehlereinträge `"error_message": null` aufweisen — das Modell lieferte also vermutlich Antworten, aber die Auswertungslogik schlug fehl oder Antworten wurden nie zurückgegeben. Die betroffenen Prompts decken ein breites Spektrum ab: Wortzahlvorgaben, Komma-Verbote, Markdown-Formatierung, Mehrsprachigkeit (Vietnamesisch) und strukturierte Ausgabeformate. Das Muster ist damit nicht prompt-spezifisch, sondern systemischer Natur. Wahrscheinlichste Ursache ist ein Integrationsfehler des Adapters (lm_eval_harness) oder ein Problem beim Parsen der Modellausgaben.

Empfehlung

Vor einer inhaltlichen Bewertung des Modells sollte die Adapter-Integration geprüft werden: Konkret sollte untersucht werden, ob lm_eval_harness die Modellausgaben korrekt empfängt und ob der Output-Parser mit dem Antwortformat von qwen3.6-35b-a3b-tq3 kompatibel ist. Ein manueller Test mit 5 repräsentativen Prompts außerhalb des Frameworks würde schnell klären, ob das Problem im Modell oder in der Infrastruktur liegt.

Live-View

elapsed
Event-Stream

KI-Bewertung

Generiert 2026-05-10 17:13 · claude-sonnet-4-6

Gesamteindruck

Das Modell qwen3.6-35b-a3b-tq3 besteht einfache Funktions- und Sanity-Tests problemlos, zeigt jedoch bei komplexeren Aufgaben (Codegenerierung) nur mittelmäßige Leistung und liefert beim IFEval-Benchmark aufgrund eines Infrastrukturproblems gar kein verwertbares Ergebnis.

Stärken

  • Stabile Basisfunktionalität: Instruktionsfolge bei einfachen Prompts fehlerfrei
  • Syntaktisch valide Python-Ausgaben ohne Laufzeitfehler
  • Schnelle und präzise Antworten bei Faktenfragen und kurzen Aufgaben

Schwächen

  • HumanEval-Pass-Rate von nur 56,7 %: konzeptionelle Fehler bei Spezifikationsverständnis (Min/Max-Verwechslung, Ziffern vs. Zahlen, inverse Operationen)
  • IFEval vollständig ausgefallen (541/541 Fehler), Instruction-Following nicht beurteilbar
  • Trunkierung bei langen Outputs deutet auf zu niedrig konfiguriertes `max_tokens`-Limit im Testaufbau

Empfehlung

Vor einem produktiven Einsatz als Code- oder Instruction-Following-Assistent sollte zuerst der IFEval-Adapter-Fehler behoben und `max_tokens` erhoht werden, um eine belastbare Gesamtbewertung zu ermoglichen.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

Keine Sub-Benchmarks im "good"-Bereich.

Schwächen

Keine Sub-Benchmarks im "poor"-Bereich.

Telemetrie

GPU-Auslastung (%)
VRAM (MB)

Snapshots

Konfiguration
7 Felder
{
    "name": "Kurztest",
    "provider_id": 1,
    "model_id": 2,
    "benchmarks": [
        {
            "adapter_key": "baseline",
            "sub_benchmarks": [
                "cold_start",
                "throughput",
                "sanity"
            ],
            "threshold_override": null
        },
        {
            "adapter_key": "lm_eval_harness",
            "sub_benchmarks": [
                "humaneval",
                "ifeval"
            ],
            "threshold_override": null
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "qwen3.6-35b-a3b-tq3",
        "quantization": "TurboQant3",
        "format": "gguf",
        "source_url": null,
        "build_notes": "selbst kompiliertes llmama mit TurboQuant3 für Gewichte",
        "checksum": null
    }
}
Provider
7 Felder
{
    "name": "llama-tq3",
    "type": "ollama",
    "endpoint_url": "http://100.64.0.4:8090/",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}
Hardware
1 Felder
[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]
System
6 Felder
{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-10T16:26:39+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/26