Run #51 🔒

gpt-oss:20b unknown · Ollama · gestartet 2026-05-11 15:25:30

20.9B MXFP4 ctx 131.1k gptoss 🧠 reasoning 🔧 tools

completed

Aktueller Adapter swe_bench.swe_bench_lite

Samples 20 / 20 (100%)

Errors 4

Letzter Heartbeat 15:35:13

Beendet 2026-05-11 15:35:13

Cold-Start TTFT

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?

372ms

Antwortzeit gesamt · 100% pass

1 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) fehlerfrei abgeschlossen. Das Modell reagierte korrekt und ohne Fehler auf die einzige gestellte Anfrage.

Stärken

Vollständige Fehlerfreiheit: keine Errors, keine Failures
Korrekte, präzise Antwort ohne Halluzination oder Format-Abweichung

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
Kein numerischer Score (score: null) vorhanden, daher keine quantitative Latenz-Bewertung möglich

Auffälligkeiten

Keine Failure-Muster erkennbar, da ausschließlich ein einzelner Erfolgsfall vorliegt. Der Prompt war trivial kurz ("Antworte nur mit OK."), was keine Rückschlüsse auf das Verhalten bei komplexeren oder längeren Inputs zulässt. Die fehlende Score-Metrik deutet darauf hin, dass die eigentliche TTFT-Messung (in Millisekunden) nicht erfasst oder nicht weitergegeben wurde.

Empfehlung

Den Benchmark mit mindestens 20–50 Wiederholungen und variierenden Prompt-Längen erneut ausführen sowie die konkrete TTFT-Messung (z. B. in Millisekunden) als numerischen Score implementieren, um belastbare Aussagen zur Latenz und deren Stabilität unter Last treffen zu können.

Sanity — Substring-Checks

Baseline — Streaming-Performance & Sanity · v1.0.0

Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?

100%

3 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Sanity-Benchmark wurde mit einer Pass-Rate von 100 % (3/3) fehlerfrei bestanden. Das Modell liefert auf triviale Fragen korrekte, formatgetreue Antworten.

Stärken

Vollständige Trefferquote ohne Fehler oder Abweichungen
Strikte Einhaltung der Formatvorgaben (nur Zahl, nur ein Wort, nur Großbuchstaben)
Keine Inference-Fehler oder Timeouts aufgetreten

Schwächen

Keine Schwächen identifizierbar auf diesem Niveau — der Test ist bewusst trivial gehalten
Aussagekraft beschränkt sich auf grundlegende Funktionsfähigkeit des Endpoints

Auffälligkeiten

Keine Muster in Failures erkennbar, da ausnahmslos alle Antworten korrekt waren. Die Antworten sind minimal und exakt, es gibt keine Tendenz zu unnötigen Zusätzen oder Erklärungen — was bei Substring-Checks positiv ist.

Empfehlung

Den Sanity-Benchmark als bestanden abhaken und die Testtiefe erhöhen: komplexere Sub-Benchmarks mit mehrschrittiger Reasoning-Anforderung, längeren Kontexten oder nicht-trivialen Formatvorgaben ausführen, um belastbare Aussagen über die tatsächliche Modellqualität des gpt-oss:20b zu gewinnen.

Throughput — Tokens/sec

Baseline — Streaming-Performance & Sanity · v1.0.0

Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?

143.7t/s

Tokens/sec (p50) · 100% pass

6 ok · 0 failed

KI-Bewertung anzeigen

Zusammenfassung

Der Throughput-Benchmark wurde mit einer Pass-Rate von 100 % (6/6) fehlerfrei abgeschlossen. Alle Prompts — kurz, mittel und lang — wurden korrekt und vollständig beantwortet, ohne Fehler oder Timeouts.

Stärken

Perfekte Erfolgsrate ohne Errors oder Failures über alle Schwierigkeitsstufen hinweg
Inhaltlich korrekte und gut strukturierte Antworten auf diverse Prompt-Typen (Fakten, Erklärungen, technische Pseudocode-Aufgaben)
Konsistente Ausgabequalität auch bei komplexeren Anfragen wie dem Quicksort-Pseudocode

Schwächen

Eine längere Antwort (Quicksort) wurde abgeschnitten — der Pseudocode endet mitten im Satz, was auf ein Token-Limit oder ein Streaming-Abbruchproblem hindeutet
Ebenso der REST/GraphQL-Vergleich bricht beim fünften Punkt ab, bevor der Resolver-Text vollständig ist
Die Bewertungslogik scheint Antwortabschneidung nicht als Fehler zu werten, was die Pass-Rate verzerrt

Auffälligkeiten

Bei mindestens zwei der sechs Antworten (Quicksort, REST vs. GraphQL) wurden Antworten vorzeitig abgeschnitten. Dieses Muster tritt bei längeren, strukturierten Ausgaben auf — vermutlich durch ein zu niedriges `max_tokens`-Limit im Benchmark-Setup. Die Bewertungsfunktion erkennt dies nicht als Failure, was zu einer irreführend hohen Score führt.

Empfehlung

Das `max_tokens`-Limit im Benchmark-Adapter erhöhen (mindestens verdoppeln für mittlere und lange Prompts) und die Evaluierungslogik um eine Prüfung auf abgeschnittene Ausgaben erweitern, damit Truncation als partielle Failure gewertet wird.

SWE-bench Lite — Issue-Repair

SWE-bench Lite · v1.0.0+patch-apply-detection

⚠ 4

Kann das Modell echte Bugs in echten Codebasen fixen?

158.5 t/s

0 ok · 6 failed · 4 errors

KI-Bewertung anzeigen

Zusammenfassung

Das Modell gpt-oss:20b erreicht auf SWE-bench Lite eine Pass-Rate von 0 % — kein einziger Patch führt die zugehörigen Tests erfolgreich durch. Alle 10 Samples enden als Fehler oder Fehlschlag.

Stärken

Das Modell erzeugt syntaktisch erkennbare Diff-Formate und arbeitet sich in relevante Codestellen vor.
Einige Patches enthalten inhaltlich plausible Ansätze (z. B. fehlende Zuweisung bei `chararray.replace`, leere-Input-Behandlung in `wcs.py`).

Schwächen

Vier von zehn Samples scheitern bereits am Patch-Anwenden (`patch_apply_failed`), d. h. die erzeugten Diffs sind strukturell ungültig oder referenzieren falsche Zeilennummern/Kontexte.
Die verbleibenden sechs Patches sind inhaltlich nicht korrekt genug, um die Testsuite grün zu schalten — die Logik ist unvollständig oder falsch (z. B. abgeschnittene Ausgabe bei `rst.py`, falsches `block_diag`-Flattening bei `separable.py`).

Auffälligkeiten

Mehrere Antworten sind abgeschnitten (Truncation-Muster: Patch endet mitten im Code), was auf ein Token-Limit-Problem oder unkontrollierte Generierung hindeutet.
Alle `patch_apply_failed`-Fehler treten ohne sichtbaren Prompt auf — möglicherweise werden fehlerhafte Hunk-Header (`@@`-Zeilen ohne Zeilennummern) systematisch produziert.
Das Django-Failure enthält syntaktisch kaputtes Python im entfernten Abschnitt, was auf Halluzination beim Diff-Erzeugen hindeutet.

Empfehlung

Vor weiteren Läufen das Diff-Format strikt per System-Prompt erzwingen (vollständige `@@`-Hunk-Header mit Zeilennummern) und das maximale Output-Token-Limit erhöhen, um Truncation zu verhindern; danach gezielt prüfen, ob `patch_apply_failed` abnimmt.

›

Live-View

elapsed

KI-Bewertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Gesamteindruck

Das Modell gpt-oss:20b besteht alle einfachen Basis-Tests zuverlässig, scheitert aber vollständig an anspruchsvollen Code-Repair-Aufgaben. Ein wiederkehrendes Truncation-Problem bei längeren Ausgaben deutet auf ein systemisches Token-Limit-Problem hin, das die Bewertung verzerrt.

Stärken

Perfekte Pass-Rate bei trivialen bis mittleren Aufgaben (Sanity, Cold-Start, Throughput)
Strikte Einhaltung von Formatvorgaben bei kurzen, strukturierten Antworten
Syntaktisch erkennbare Diff-Erzeugung mit teils plausiblen Lösungsansätzen

Schwächen

0 % Erfolgsrate auf SWE-bench Lite; kein einziger Patch besteht die Testsuite
Strukturell ungültige Diffs (fehlerhafte Hunk-Header, falsche Zeilennummern) bei 4 von 10 Patches
Systematisches Abschneiden von Ausgaben bei längeren, komplexen Antworten
Halluzinationen beim Diff-Erzeugen (syntaktisch kaputtes Python)

Empfehlung

Das Modell nicht für autonome Code-Repair- oder Issue-Fix-Workflows einsetzen, solange das Truncation-Problem nicht behoben und die Diff-Generierung durch strikte Prompt-Vorgaben nicht stabilisiert wurde.

Stärken & Schwächen

Auf Basis der Pass-Raten dieses Runs

Stärken

Keine Sub-Benchmarks im "good"-Bereich.

Schwächen

SWE-bench Lite — Issue-Repair (0%)

Telemetrie

GPU-Auslastung (%)

VRAM (MB)

Snapshots

› Konfiguration

7 Felder

{
    "name": "SWE-Bench-Quick",
    "provider_id": null,
    "model_id": null,
    "benchmarks": [
        {
            "adapter_key": "baseline",
            "sub_benchmarks": [
                "cold_start",
                "throughput",
                "sanity"
            ],
            "threshold_override": null
        },
        {
            "adapter_key": "swe_bench",
            "sub_benchmarks": [
                "swe_bench_lite"
            ],
            "threshold_override": null,
            "params": {
                "swe_bench_preset": "lite_smoke"
            }
        }
    ],
    "tags": [],
    "notes": null,
    "model": {
        "base_name": "gpt-oss:20b",
        "quantization": "unknown",
        "format": "other",
        "source_url": null,
        "build_notes": null,
        "checksum": null
    }
}

› Provider

7 Felder

{
    "name": "Ollama",
    "type": "ollama",
    "endpoint_url": "http://100.64.0.4:11434/",
    "api_key_env_var": null,
    "sampling_params": [],
    "provider_specific": [],
    "telemetry_sample_interval_ms": 1000
}

› Hardware

1 Felder

[
    {
        "name": "kim",
        "hostname": "100.64.0.4",
        "gpu_description": "RTX 5080 16GB",
        "cpu": "Ryzen 9800 X3D",
        "ram": "64GB DDR5",
        "storage": "1TB+4TB SSD",
        "network": null,
        "notes": null
    }
]

› System

6 Felder

{
    "php_version": "8.4.21",
    "os": "Linux",
    "os_release": "6.8.0-111-generic",
    "symfony_version": "7.4.10",
    "provider_version_hint": null,
    "recorded_at": "2026-05-11T15:25:30+02:00"
}

Log-Verzeichnis

/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/51