Triage für Admins — Patrick Isenegger

Ein Pager und ein Telefon klingen auf den ersten Blick gleich. Das eine ist die Anmeldung für Rettungsdienste auf dem Notfall mit einem STEMI-EKG, das andere die Pflege auf der Abteilung wegen einem Patienten mit Schmerzsymptomatik. Beide sagen: jetzt handeln. Und doch wirken sie anders auf mich — und ich frage mich, warum.

Triage ist Zeit-Allokation, nicht Sortieren

Das ABCDE-Schema aus der Notfallmedizin wirkt beim ersten Lesen wie eine Priorisierungs-Liste. Ist es aber nicht. Es ist ein Rahmen, der Aufmerksamkeit unabhängig vom lautesten Symptom zuteilt: erst Atemweg, dann Atmung, dann Kreislauf, dann Neurologie, dann Alles-Andere. Ein Patient, der laut schreit und schmerzverzerrt wirkt, zieht instinktiv Aufmerksamkeit — aber jemand, der still und bleich daneben liegt, kann schneller sterben.

Im Agent-Management in meinem Homelab habe ich eine ähnliche Schwerkraft beobachtet: auf den lautesten Alarm zu reagieren, statt auf den wichtigsten. Wenn ein Agent laut scheitert — Exception-Trace in Grafana, halbe Chat-History voller Retry-Loops — springt das Auge dorthin. Aber der Retrieval-Index, der stumm und unbemerkt veraltete Embeddings zurückgibt, kann jede folgende Agent-Antwort leise vergiften, während die Exception nur ein überlaufender Tool-Aufruf ist, den ein Fallback-Handler ohnehin auffängt.

ABCDE hilft, weil es unabhängig vom emotionalen Gewicht priorisiert. Die gleiche Disziplin im Agent-Incident wäre eine fixe Reihenfolge: erst Model-Endpoint (antwortet er überhaupt?), dann Context-Pipeline (kommt die richtige Information an?), dann Tool-Chain (führen Calls sauber aus?), dann Agent-Logik (Prompt, Routing, State). Erst wenn jedes dieser Fundamente steht, darf der laut blinkende Trace überhaupt angeschaut werden.

Severity ist nicht gleich Schweregrad

In der Klinik unterscheide ich zwischen vital bedroht, akut kontrollbedürftig und schmerzlich-aber-stabil. Alle drei klingen dramatisch. Aber der vital Bedrohte braucht Sekunden, der zweite Minuten, der dritte Stunden.

Im Homelab gibt es diesen Unterschied ebenso: ein degradierter Agent (höhere Latenz, schlechtere Antwortqualität, häufiger Retries) ist etwas anderes als ein ausgefallener Agent, der wieder etwas anderes ist als ein kompromittiertes System — zum Beispiel ein Agent, der eine Prompt-Injection erfolgreich gegen sich selbst richtet und beginnt, Daten nach aussen zu exfiltrieren. Nur der letzte rechtfertigt, mitten in der Nacht aufzustehen. Die ersten zwei können warten bis zum nächsten Morgen, wenn der Runbook-Eintrag existiert.

Mein persönlicher Fehler in den ersten Monaten mit Agent-Alerts war, alle drei gleich ernst zu nehmen. Das war nicht sorgfältig — das war Burnout in Vorbereitung.

Checklisten sind nicht für die, die es nicht können

Bei einem STEMI gehe ich immer die gleiche Checkliste und die gleichen Standards durch. Ich kann sie auswendig bzw. sie sind verinnerlicht — ich habe sie schon so oft geteacht. Trotzdem schaue ich immer wieder drauf. Nicht weil ich es nicht weiss, sondern weil Wachheit keine Konstante ist. Um drei Uhr morgens, nach einer langen Schicht, rutscht selbst Routine weg.

Agent-Deploy-Checklisten existieren aus genau demselben Grund. Ein neuer Prompt, ein geändertes Tool-Schema, ein zusätzlicher Retrieval-Hop — jeder einzelne Schritt ist trivial, das Zusammenspiel ist es nicht. Die beste Zeit für einen produktiven Fehler ist, wenn sich alles vertraut anfühlt und man die Eval-Suite “für das eine Mal” überspringt.

In beiden Welten hilft die Checkliste genau den Routiniers, die sie am ehesten nicht nötig zu haben meinen.

Wo die Analogie endet

Menschen sind keine Agents. Triage in der Klinik hat einen emotionalen Preis — Angehörige warten, Patienten haben Angst, Team-Dynamiken wanken. Dieser Overhead fehlt im Homelab-Incident, und das ist tatsächlich erleichternd. Man kann ein System kalt debuggen, ohne es dabei zu verletzen.

Umgekehrt lehrt die Klinik etwas, das im Engineering oft vergessen geht: technische Probleme nicht zu personifizieren. Ein Agent, der halluziniert, ist kein Schuldiger. Ein fehlgeschlagener Deploy ist kein Charakterzug. Die ABCDE-Haltung im System-Incident schliesst auch aus, dass man anfängt zu jagen “wer das verbockt hat” — und fängt stattdessen an zu fragen “was fehlt im Setup, damit das nicht wieder passiert”.

Das ist die Art Crossover-Denken, über die ich auf dieser Seite vermutlich öfter schreiben werde. Nicht weil Medizin und Agent-Management inhaltlich zusammengehören, sondern weil die Denk-Muskeln, die beide trainieren, überraschend oft die gleichen sind.

Triage ist Zeit-Allokation, nicht Sortieren

Severity ist nicht gleich Schweregrad

Checklisten sind nicht für die, die es nicht können

Wo die Analogie endet

Verwandte Notizen