AIOps: The Next (Last) Frontier

Was ist AIOps?

Bei AIOps (Artificial Intelligence for IT Operations) geht es im Grunde darum, dass Menschen und Maschinen zusammenarbeiten, um eine effektivere IT Service Management (ITSM) Umgebung bereitstellen zu können.

Der Name leitet sich ab von:

  • AI – steht für Artificial Intelligence – welche den Menschen mit Leichtigkeit übertrifft, wenn es darum geht, grosse Datenmengen zu analysieren, Muster zu erkennen und bei schnellem Arbeiten trotzdem konsistent und exakt zu bleiben.

  • IT Ops – steht für IT Operations – die viele verschiedenene Applikationen einsetzen, welche alle grosse Datenmengen produzieren und Performance und Genauigkeit erfordern. Dies dient dazu, IT-Services bereitzustellen und zu verwalten, welche den Erwartungen der Kunden entsprechen und gleichzeitig den sich regelmässig ändernden Geschäftsanforderungen gerecht werden.

Gartner definieren AIOps wie folgt:

„AIOps kombiniert Big Data und maschinelles Lernen, um IT Operations zu automatisieren, einschliesslich Ereigniskorrelation, Erkennung von Anomalien und Bestimmung der Kausalität.“

Gartner erklärt anhand des Diagramms in Abbildung 1, wie eine AIOps-Plattform funktioniert. AIOps besteht aus zwei wesentlichen Komponenten: Big Data und Machine Learning. AIOps erfordert eine Abkehr von abgegrenzten IT-Daten, um Beobachtungsdaten (wie sie in Überwachungssystemen und Logs enthalten sind) zusammen mit Daten aus Tätigkeiten (normalerweise in Ticket-, Incident- und Störprotokollen enthalten) innerhalb einer Big-Data-Plattform zu aggregieren. AIOps implementiert dann eine umfassende Analyse- und ML-Strategie für die kombinierten IT-Daten. Das gewünschte Ergebnis sind automatisierungsgesteuerte Erkenntnisse, die zu kontinuierlichen Verbesserungen und Korrekturen führen. AIOps kann als Continuous Integration und Deployment (CI / CD) für zentrale IT-Operations betrachtet werden.

Abbildung 1: AIOps Übersicht

AIOps verbindet drei verschiedene IT-Disziplinen – Service Management („Engage“), Performance Management („Observe“) und Automation („Act“) -, um das Ziel kontinuierlicher Erkenntnisse und Verbesserungen zu erreichen.

Was steckt hinter AIOps?

Was man sich von Artificial Intelligence (AI) versprochen hat war, das diese das tut, was Menschen tun, dies aber besser, schneller und in grösserem Ausmass. AIOps wird dies für IT Operations umsetzen, indem es die Herausforderungen in Bezug auf Geschwindigkeit, Umfang und Komplexität der digitalen Transformation angeht, darunter:

  • Die Herausforderung welche IT Operations hat bei der manuellen Verwaltung seiner Infrastruktur. Hierbei ist die Verwendung des Begriffs „Infrastruktur“ ein eher unzutreffender Name, da moderne IT-Umgebungen, managed Clouds, unmanaged Clouds, Dienste von Drittanbietern, SaaS-Integrationen, mobile Geräte und mehr umfassen. Herkömmliche Ansätze zur Verwaltung der Komplexität funktionieren in dynamischen Umgebungen nicht mehr zufriedenstellend. Das Verwalten dieser Komplexität durch manuelle, menschliche Überwachung ist nicht mehr möglich. Die derzeitige IT Ops-Technologie geht bereits oft über den Rahmen der manuellen Überwachung hinaus und wird sich in den kommenden Jahren nur noch verschlechtern.
  • Die Datenmenge, welche IT Ops sichern muss nimmt exponentiell zu. Die Leistungsüberwachung generiert eine exponentiell grössere Anzahl von Ereignissen und Warnungen. Das Volumen der Service Tickets steigt drastisch mit der Einführung von IoT-Geräten, APIs, mobilen Anwendungen sowie digitalen und maschinellen Benutzern. Auch hier wird es für manuelle Berichte und Analysen einfach zu komplex.
  • Auf Probleme innerhalb der Infrastruktur muss immer schneller reagiert werden. Wenn Unternehmen ihr Geschäft digitalisieren, wird die IT zum Geschäft. Die „Konsumierung“ von Technologie hat die Benutzererwartungen für alle Branchen verändert. Reaktionen auf IT-Ereignisse – ob real oder wahrgenommen – müssen sofort erfolgen, insbesondere wenn ein Problem das Erlebnis des Benutzers beeinträchtigt.
  • Entwickler haben mehr Macht und Einfluss, aber die Verantwortlichkeit liegt immer noch bei der Kern-IT. In DevOps-Organisationen übernehmen Programmierer mehr Überwachungsverantwortung auf Anwendungsebene, aber die Verantwortung für den allgemeinen Zustand des IT-Ökosystems und die Interaktion zwischen Anwendungen, Diensten und Infrastruktur bleibt weiterhin in der Obhut der Kern-IT. ITOps übernimmt mehr Verantwortung, während ihre Netzwerke immer komplexer werden.

Wie ist AIOps aufgebaut?

Ich werde nun die Elemente von AIOps durchgehen, wie diese im obigen Gartner-Diagramm dargestellt sind. Während ich alle dazu ermutige, den Marktleitfaden zu lesen, sollte das Folgende als angemessene Grundlage für die Schlüsselelemente von AIOps dienen und wie sie dazu beitragen AIOps umzusetzen:

  • Umfangreiche und vielfältige IT-Daten: AIOps basiert auf der Zusammenführung verschiedener Daten aus dem IT Operations Management (ITOM) (Metriken, Ereignisse usw.) und dem IT Service Management (ITSM) (Vorfälle, Änderungen, usw.). Dies wird häufig als „Aufteilen von Datensilos“ bezeichnet. Dabei werden Daten aus unterschiedlichen Tools zusammengeführt, damit sie miteinander „sprechen“ und die Identifizierung der Grundursachen beschleunigen oder die Automatisierung ermöglichen können.
  • Aggregierte Big-Data-Plattform: Das Herzstück der Plattform (in der Mitte der Grafik) ist „Big Data“. Da die Daten von isolierten Tools bereitgestellt werden, müssen sie zusammengeführt werden um die Analysen auf der nächsten Ebene zu unterstützen. Dies muss nicht nur offline erfolgen – wie bei einer forensischen Untersuchung unter Verwendung historischer Daten -, sondern auch in Echtzeit, wenn Daten aufgenommen werden.
  • Maschinelles Lernen: Big Data ermöglicht die Anwendung von ML zur Analyse grosser Mengen verschiedener Daten. Dies ist weder vor dem Zusammenführen der Daten noch durch manuelle menschliche Anstrengung möglich. ML automatisiert vorhandene manuelle Analysen und ermöglicht neue Analysen für neue Daten – alles in einem Umfang und einer Geschwindigkeit, die ohne AIOps nicht möglich wäre.
  • Observe: Dies ist die Weiterentwicklung der traditionellen ITOM-Domäne, die Entwicklungsdaten und andere Nicht-ITOM-Daten (Topologie, Geschäftsmetriken) integriert, um neue Korrelations- und Kontextualisierungsmodalitäten zu ermöglichen. In Kombination mit der Echtzeitverarbeitung erfolgt die Identifizierung der wahrscheinlichen Ursache gleichzeitig mit der Problemerhebung.
  • Engage: Die Entwicklung der traditionellen ITSM-Domäne umfasst die bidirektionale Kommunikation mit ITOM-Daten, um die oben genannten Analysen zu unterstützen und automatisch Dokumentationen für Audit- und Compliance- / regulatorische Anforderungen zu erstellen. AI / ML drückt sich hier in kognitiver Klassifizierung plus Routing und Intelligenz bei der Kundenschnittstelle aus, z. B. Chatbots.
  • Act: Dies ist die „letzte Schritt“ der AIOps-Wertschöpfungskette. Die Automatisierung von Analyse, Workflow und Dokumentation ist vergebens, wenn die Verantwortung für Massnahmen wieder in menschliche Hände gelegt wird. Act umfasst die Kodifizierung des Wissens über menschliche Domänen in die Automatisierung und Orchestrierung von Korrekturen und Reaktionen.

Fazit

AIOps überwacht proaktiv den Systemzustand, hilft dabei Störungen zu reduzieren, behebt Probleme schnell und eskaliert automatisch. DevOps-Teams können AIOps jedoch auch verwenden, um Ereignisse in Echtzeit zu analysieren, aussagekräftige Erkenntnisse aus diesen zu gewinnen, um eine kontinuierliche Verbesserung des Prozesses zu erreichen, schnellere Deployments und eine bessere Zusammenarbeit zu erzielen und Ausfallzeiten durch proaktives Erkennen zu reduzieren. AIOps unterstützt IT Operations auch dabei einen Zustand zu erreichen, in dem ein Incident und dessen Auswirkungen behoben werden kann, bevor dieser sich überhaupt auf die wichtigsten Dienste und das Kundenerlebnis auswirkt.

Beitrag teilen

Timon Weisser

Timon arbeitet als Senior Software Engineer im DevOps Umfeld bei der Zürcher Kantonalbank

Alle Beiträge ansehen von Timon Weisser →

Schreibe einen Kommentar