Run #52

llama3.2-vision:latest unknown · Ollama · gestartet 2026-05-11 15:35:13
10.7B Q4_K_M ctx 131.1k mllama 👁 vision
completed
Aktueller Adapter swe_bench.swe_bench_lite
Samples 20 / 20 (100%)
Errors 10
Letzter Heartbeat 15:54:55
Beendet 2026-05-11 15:54:55
Cold-Start TTFT
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

114ms
Antwortzeit gesamt · 100% pass
1 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Test wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete korrekt und ohne Fehler auf die einzige Testanfrage.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures
  • Korrekte und minimale Antwort auf eine eindeutige Instruktion ("OK" auf "Antworte nur mit OK")

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
  • Kein Score-Wert vorhanden, sodass keine quantitative Latenz-Messung ausgewertet werden kann

Auffälligkeiten

Keine Muster in Failures erkennbar, da ausschließlich ein Success vorliegt. Der Test deckt nur den trivialsten Fall ab (einsilbige Antwort auf eine eindeutige Kurzanweisung) und gibt keinen Aufschluss über Verhalten bei komplexeren Prompts oder langen Outputs.

Empfehlung

Den Cold-Start-Benchmark um mehrere Wiederholungen und unterschiedliche Prompt-Typen erweitern (z. B. längere Antworten, mehrsprachige Eingaben), um belastbare TTFT-Werte zu ermitteln. Zudem sollte der `score`-Wert mit einer tatsächlichen Zeitstempel-Messung befüllt werden, damit Latenz-Vergleiche zwischen Modellen oder Quantisierungsstufen möglich sind.

Sanity — Substring-Checks
Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%
3 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (3/3) fehlerfrei bestanden. Das Modell llama3.2-vision:latest antwortet auf triviale Fragen korrekt und instruktionskonform.

Stärken

  • Perfekte Trefferquote ohne Fehler oder Aussetzer
  • Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
  • Keine technischen Fehler oder leere Antworten

Schwächen

  • Keine Schwächen auf diesem Niveau erkennbar; der Test ist jedoch zu einfach, um Modellgrenzen aufzuzeigen

Auffälligkeiten

Keine negativen Muster erkennbar. Alle drei Antworten sind minimal und exakt, was auf gute Instruction-Following-Fähigkeiten bei kurzen, klaren Prompts hinweist.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: Komplexere Sub-Benchmarks (z. B. mehrschrittige Reasoning-Aufgaben, lange Kontexte oder mehrsprachige Prompts) sollten als nächstes evaluiert werden, um tatsächliche Schwachstellen des Modells zu identifizieren.

Throughput — Tokens/sec
Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

90.9t/s
Tokens/sec (p50) · 100% pass
6 ok · 0 failed
KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % und einem Score von 0,931 vollständig bestanden. Das Modell llama3.2-vision liefert unter realistischer Last solide Ergebnisse ohne Fehler oder Ausfälle.

Stärken

  • Vollständige Fehlerfreiheit: 0 Errors, 0 Failures bei allen 6 Prompts
  • Konsistente Qualität über alle Prompt-Längen hinweg (kurz, mittel, lang)
  • Korrekte und strukturierte Antworten auf fachliche Fragen (Quicksort, REST vs. GraphQL)

Schwächen

  • Score von 0,931 liegt leicht unter dem Optimum, was auf marginale Throughput-Einbußen hindeutet
  • Lange Antworten (Quicksort-Pseudocode) wurden nicht vollständig abgeschlossen — die Erklärung bricht mitten im Satz ab

Auffälligkeiten

Bei der Quicksort-Antwort endet der Text abrupt bei „Tausche", was auf ein Truncation-Problem bei längeren Outputs hinweist. Dies könnte auf ein zu niedriges `max_tokens`-Limit im Benchmark-Setup zurückzuführen sein und verfälscht möglicherweise den Throughput-Score nach unten.

Empfehlung

Das `max_tokens`-Limit für lange Prompts im Benchmark-Setup prüfen und ggf. anheben, um Truncation bei komplexen Antworten zu vermeiden. Anschließend den Throughput-Score erneut messen, um zu klären, ob das leichte Defizit von 0,069 gegenüber dem Maximum auf dieses Problem oder auf echte Latenz-Engpässe zurückzuführen ist.

SWE-bench Lite — Issue-Repair
SWE-bench Lite · v1.0.0+patch-apply-detection
⚠ 10

Kann das Modell echte Bugs in echten Codebasen fixen?

113 t/s
0 ok · 0 failed · 10 errors
KI-Bewertung anzeigen

Zusammenfassung

Das Modell llama3.2-vision hat beim SWE-bench Lite vollständig versagt: Es gibt weder erfolgreiche noch fehlgeschlagene Patch-Anwendungen, sondern ausschließlich Errors, sodass keine Pass-Rate berechnet werden kann.

Stärken

  • Keine erkennbaren Stärken identifizierbar, da kein einziger Test abgeschlossen wurde.

Schwächen

  • Das Modell produziert durchgängig nicht-anwendbare Patches, die den `patch_apply`-Schritt scheitern lassen.
  • Wiederholte Idle-Timeouts deuten auf zu langsame Inferenz oder fehlende Kapazität für komplexe Code-Prompts hin.

Auffälligkeiten

Zwei klar unterscheidbare Fehlermuster dominieren: Erstens tritt `patch_apply_failed` in 7 von 10 Fällen auf, was darauf hindeutet, dass das Modell syntaktisch oder strukturell invalide Diffs erzeugt, die nicht auf den Ziel-Code angewendet werden können. Zweitens kommt es in 3 von 10 Fällen zu Idle-Timeouts gegenüber dem Inference-Endpunkt, was auf Überlastung oder zu lange Generierungszeiten schließen lässt. Es gibt keine einzige erfolgreiche Antwort, was auf eine grundsätzliche Inkompatibilität des Modells mit dem Aufgabenformat hindeutet.

Empfehlung

llama3.2-vision sollte für SWE-bench nicht weiter evaluiert werden. Das Modell ist primär auf visuelle Aufgaben ausgelegt und nicht auf strukturierte Code-Patch-Generierung. Stattdessen sollte ein dediziertes Code-Modell (z.B. llama3-instruct oder eine Code-Llama-Variante) getestet werden. Zusätzlich sollte der Inference-Server auf Timeout-Konfiguration und Ressourcenverfügbarkeit geprüft werden.

Live-View

elapsed
Event-Stream

KI-Bewertung

Generiert 2026-05-11 15:57 · claude-sonnet-4-6

Gesamteindruck

llama3.2-vision meistert einfache Instruction-Following-Aufgaben und Durchsatztests ohne Probleme, scheitert jedoch vollständig an komplexen Code-Repair-Aufgaben. Das Modell ist erkennbar auf visuelle und sprachliche Basisaufgaben ausgerichtet, nicht auf strukturierte Softwareentwicklung.

Stärken

  • Zuverlässiges Instruction-Following bei kurzen, klar definierten Prompts
  • Stabile Throughput-Performance ohne technische Ausfälle
  • Korrekte Formatierung und minimale Antworten bei Sanity-Tests

Schwächen

  • Vollständiges Versagen bei SWE-bench Lite: keine einzige erfolgreiche Patch-Generierung
  • Erzeugt syntaktisch invalide Diffs, die nicht auf Zielcode anwendbar sind
  • Truncation-Probleme bei langen Outputs deuten auf Limitierungen bei komplexen Generierungsaufgaben hin
  • Idle-Timeouts bei komplexen Code-Prompts weisen auf Kapazitaets- oder Inferenzengpaesse hin

Empfehlung

llama3.2-vision nur fuer visuelle und einfache Sprachaufgaben einsetzen und fuer Code-bezogene Anwendungsfaelle durch ein dediziertes Code-Modell (z.B. CodeLlama oder llama3-instruct) ersetzen.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

Keine Sub-Benchmarks im "good"-Bereich.

Schwächen

Keine Sub-Benchmarks im "poor"-Bereich.

Telemetrie

GPU-Auslastung (%)
VRAM (MB)

Snapshots

Konfiguration
7 Felder
{
    "name": "SWE-Bench-Quick",
    "provider_id": null,
    "model_id": null,
    "benchmarks": [
        {
            "adapter_key": "baseline",
            "sub_benchmarks": [
                "cold_start",
                "throughput",
                "sanity"
            ],
            "threshold_override": null
        },
        {
            "adapter_key": "swe_bench",
            "sub_benchmarks": [
                "swe_bench_lite"
            ],
            "threshold_override": null,
            "params": {
                "swe_bench_preset": "lite_smoke"
            }
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "llama3.2-vision:latest",
        "quantization": "unknown",
        "format": "other",
        "source_url": null,
        "build_notes": null,
        "checksum": null
    }
}
Provider
7 Felder
{
    "name": "Ollama",
    "type": "ollama",
    "endpoint_url": "http://100.64.0.4:11434/",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}
Hardware
1 Felder
[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]
System
6 Felder
{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-11T15:35:13+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/52