Der Business Analyst als Bindeglied zwischen Entwicklung und stabilem Betrieb
Bevor ein System produktiv geht, sorgt der BA dafür, dass das Betriebsteam
die Lösung fachlich verstehen, betreuen und weiterentwickeln kann.
Er macht die Blackbox der Entwicklung transparent.
Übergabe von Fachkonzepten, Requirements-Dokumenten und API-Spezifikationen
Glossar: gemeinsame Sprache zwischen Betrieb und Fachseite sicherstellen
Schnittstellenanalyse: Dokumentation aller System-Interaktionen des neuen Moduls
🎓
Schulung & Enablement
Knowledge-Sharing-Sessions und Workshops für Support-Teams
Schulungsunterlagen für Key-User und Support-Mitarbeiter
Business-Kontext: Warum wurde es so umgesetzt? (verhindert Fehlinterpretationen)
✅
Abnahme & Qualitätssicherung (UAT)
Begleitung der Fachabteilungen beim User Acceptance Testing
Übergabe einer Mängelliste (Known Issues) mit Workarounds an den Support
Einholung des finalen fachlichen Sign-Off durch die Stakeholder
📊
Betriebs-KPIs & Monitoring
Definition fachlicher Schwellenwerte für das Monitoring
Beispiel: "Wenn weniger als X Transaktionen/Stunde eingehen → Prozessalarm"
Festlegen, welche Reports wöchentlich/monatlich generiert werden müssen
📋
Backlog-Übergabe & Roadmap
Dokumentation offener Change Requests für zukünftige Phasen
Erläuterung der Produkt-Roadmap, damit der Betrieb Änderungen einplanen kann
Priorisierung: Was kommt in Release 2, was ist als Wunsch dokumentiert
RUNTIME PROOF-OF-CONCEPT · NAB9
Wenn die OPS-Übergabe nicht nur dokumentiert, sondern technisch erprobt wird
Die Recruiter-UI und der KI-Chat-Assistent dieser Arbeitsprobe greifen auf einen
lokal betriebenen KI-/LLM-Server zurück. Dieser läuft auf einem
kompakten Mini-PC mit der Modellbezeichnung „NAB9"
(Intel i9-12900HK, integrierte GPU). Die Wahl fiel bewusst auf lokale Hardware,
um ohne Cloud-Abhängigkeit und ohne laufende Betriebskosten zu arbeiten.
Unter realer Last während der Entwicklung kam die Hardware thermisch und
rechenseitig an Grenzen. Anstatt das mit grösserer Hardware zu erschlagen,
wurde es als Operations-Fragestellung behandelt. Daraus entstand ein
eigenes kleines agiles Projekt, das die OPS-Themen dieser Seite praktisch
validiert: Monitoring, Alerting, Eskalation, Logging und Betriebsübergabe.
Konzeptioneller Ursprung ist das
Decision- und Process-Simulation-Framework.
Die Recruiter-UI und der KI-Chat-Assistent dieser Arbeitsprobe greifen auf einen
lokal betriebenen KI-/LLM-Server zurück. Diese Wahl ist bewusst getroffen,
um ohne Cloud-Abhängigkeit und ohne laufende Betriebskosten zu arbeiten.
Während der Entwicklung zeigte sich, dass die kompakte Hardware
(Intel i9-12900HK, integrierte GPU) unter realer Last thermisch
und rechenseitig an Grenzen kommt.
Anstatt das Problem mit grösserer Hardware zu lösen, wurde es als Operations-Fragestellung
behandelt: Wie würde ein Betriebsteam diesen Server überwachen? Wann muss eskaliert werden?
Wie reduziert man Fehlalarme? Wie übergibt man das Ganze sauber an OPS?
Daraus wurde ein eigenes kleines agiles Projekt mit Epic, sechs Sprints und 15 User Stories.
Parallel entstand eine klare Skalierungs-Roadmap: Die lokale NAB9-Hardware
reicht für eine Demo bis zu fünf Agents. Für die „Hardcore Full Simulation Group" mit 16 Agents
wird die Plattform in einen GPU-Cloud-Pod (2× RTX 3090) ausgelagert. Endstation ist der direkte
Zugriff auf produktive Online-Modelle. Roadmap-Details auf der NAB9-Detailseite.
Sensor-Rohwerte sind für den Betrieb nicht nutzbar. Der PoC übersetzt Temperatur und Last
in vier klare Betriebszustände: OK · WARN · CRIT · SENSORERROR.
Schwellwerte sind konfigurierbar und ohne Code-Anpassung änderbar.
OK bei unkritischen Werten
WARN ab definierter Schwelle (z. B. 70 °C)
CRIT ab kritischer Schwelle (z. B. 80 °C)
SENSORERROR, wenn keine verwertbaren Messwerte vorliegen
Ohne Hysterese würde das System bei Temperaturschwankungen um die Schwelle herum ständig
zwischen OK und WARN wechseln. Mit Hysterese erfolgt ein Downgrade erst, wenn die Temperatur
klar unter Schwelle − Hysterese fällt. Das verhindert Flatter-Alarme.
Overshoot erzeugt ein zusätzliches Label (WARN_OS, CRIT_OS),
wenn der Wert deutlich über der Schwelle liegt. Der Betrieb erkennt damit nicht nur „Warnung",
sondern „kritische Warnung mit Überschuss", ohne dass das Statusmodell dadurch komplexer wird.
Eine einzige Sensorquelle ist ein Single Point of Failure. Der PoC nutzt eine Kaskade:
Primär: LibreHardwareMonitor (CPU Package / Core Max / Core Average)
Fallback 1: OpenHardwareMonitor
Fallback 2: WMI/CIM ThermalZone
Fallback 3: LibreHardwareMonitor EXE Report
Jeder Quellen-Fehler wird einzeln protokolliert, damit OPS unterscheiden kann,
ob das Monitoring oder die Hardware das Problem ist.
Der Operations-Kanal erhält strukturierte Alerts mit Host, Statuslabel, CPU-Temperatur,
Load, Zeitstempel und Sensorquelle. Dank Statefile und Hysterese werden Meldungen nur
bei echten Statuswechseln gesendet, nicht bei jeder Messung.
Bot-Token und Chat-ID liegen in Umgebungsvariablen, nicht im Code
Meldungen bleiben kurz und mobil gut lesbar
SENSORERROR wird als eigenständiger Alert behandelt
Jeder Skriptlauf, jeder Statuswechsel, jeder Sensorfehler und jeder Telegram-Versand
wird protokolliert. Eine konfigurierbare Log-Retention entfernt alte Einträge automatisch,
sodass das Logfile langfristig wartbar bleibt.
Die strukturierten Alert-Felder sind so vorbereitet, dass sie sich später in ein
ITSM-/Ticket-System überführen lassen. Sie sind konzeptionell anschlussfähig an
Jira-/Servicedesk-Prozesse.
Auch ein kleines Betriebsprojekt verdient saubere Struktur. Der PoC wurde als
Epic „Local LLM Runtime Monitoring Platform" mit sechs Sprints und 15 User
Stories aufgesetzt, inklusive Acceptance Criteria und technischen Tasks.
Sprint 1 – Infrastruktur & Runtime Basis
Sprint 2 – Sensor- & Temperaturüberwachung
Sprint 3 – Eskalations- & Alarmierungslogik
Sprint 4 – Telegram Runtime Alerting
Sprint 5 – Logging & Runtime Stabilität
Sprint 6 – Betriebsintegration & Service Management
So entstand aus einem realen Last-Problem nicht ein Quickfix, sondern ein
nachvollziehbares, übergabefähiges Betriebsmodell.
Auf der NAB9-Detailseite finden Sie die technische Tiefe: Skriptaufbau, Sensor-Stack, Alert-Logik,
Telegram-Beispiele und das vollständige Story-/Sprint-Backlog.
Was im NAB9-PoC als „Vorbereitung für ITSM/Ticket-Integration" beschrieben ist,
läuft hier produktiv: ein eigener Servicedesk-Touchpoint.
Er ist offen für Fragen, Feedback oder direkte Kontaktaufnahme.