Artikel und Berichte für einen sicheren und stabilen IT Betrieb

Kategorie: Service Management (Seite 1 von 4)

Was ist eine Ursachenanalyse?

Die kindliche Neugier ist grenzenlos. Wann immer Kinder etwas nicht verstehen, wollen sie dieser spannenden neuen Sache auf den Grund gehen. Das führt immer zur Frage an die Eltern: Warum ist das so? Hat man eine einigermaßen kinngerechte Antwort gegeben, folgt sofort das nächste neugierige „Warum?“. Wieder versucht man eine abschließende Antwort zu geben, doch der Nachwuchs läßt sich nicht abspeisen – „Und warum?“.

Die kleinen Kinder gehen damit intuitiv wie bei einer Ursachenanalyse vor. Sie wollen eine Sache auf den Grund gehen. Sie sind auf der Suche nach der Ursache, der ultimativen Erklärung. Auf englisch nennen wir die „Root Cause“.

Unter einer Root Cause wird allgemein gesprochen ein Fehler in einer Software-Applikation oder einem digitalen Prozess verstanden. Genauer ist die Bezeichnung „Non-Konformität“, da das Verhalten nicht unbedingt einen Fehler im umgangssprachlichen Sinne darstellen muss. So könnte z.B. auch eine Hacker-Attacke auf ein System mit einer Root Cause Analyse untersucht und die ausgenutzte Schwachstelle (hoffentlich) gefunden werden.

Im abschließenden Schritt soll mit der RCA die Non-Konformität geschlossen werden. Die Root Cause löst die Ursachen-Wirkungskette aus, die schlußendlich zu einem oder mehreren Problemen führt.

Die Ursachenanalyse (Root Cause Analysis) beschreibt eine Menge an Vorgehensweise, Werkzeugen und Techniken, um zugrundeliegende Probleme einer Störung zu ermitteln.

Es finden sich Methoden der Ursachenanalyse, die die echten technischen Problemursachen zu identifizieren versuchen, während auch eher generelle Problemlösungstechniken genutzt werden können.

Woher kommt die Ursachenanalyse?

Die Ursachenanalyse gehört zum Bereich des Qualitätsmanagements und hier insbes. zur Methode des „Total Qualitäty Managements“ (TQM), die ihren Ursprung in der japanischen Automobilindustrie hat. Im TQM finden sich versch. Methoden und Techniken der Problemanalyse, Problemlösung und Ursachenanalyse (RCA).

Ursachenanalyse ist Teil eines übergreifenden Problemlösungsprozess und ist in der IT ein integraler Bestandteil des ITIL-Prozesses „Continual Service Improvement“.

Wie erfolgt eine (Fehler-) Ursachenanalyse?

Die wichtigsten Methoden finden sich im Folgenden:

Events and Causal Factor (ECF) Analysis: Die Methode ist verbreitet bei der Untersuchung von großen Einzelstörungen, wie z.B. eine Explosion in einer Raffinierie. Der Prozess nutzt die rasche und strukturierte Aufnahme von  Beweise, die in die zeitliche Reihenfolge ihres Auftreten gebracht werden. Wenn die zeitliche Verlauf klar ist, werden die kausalen und unterstützenden Faktoren identifiziert.

Change Analysis: Diese Form der Ursachenanalyse wird genutzt, wenn sich die Performance eines Systems deutlich verschlechtert. Dabei werden alle Veränderungen bei Mitarbeitern, Ausrüstungen und Informationen untersucht sowie weitere Faktoren, die die Performance eines Systems beeinflusst haben könnten.

Fehlerbaumanalyse (Fault Tree Analysis FTA): Diese Methode eignet sich, um ausgehend von einem unerwünschten definierten Ereignis rückwärts gerichtet dessen Ursachen zu ermitteln, auch Top-down-Ansatz genannt. Man geht vom Allgemeinen zum Speziellen und prüft auf jeder Ebene des Systems eine mögliche Beteiligung der Subservices geprüft. Dabei entsteht eine baumartige Struktur der Fehlermöglichkeiten.

Kepner-Tregoe Methode (KT) und Entscheidungsfindung: Dieses Modell unterscheidet vier einzelne Phasen des Problemlösungsprozesses:

  • Situationsanalyse
  • Problemanalyse
  • Lösungsanalyse
  • Analyse potentieller Probleme

KT wird insbes. im Umfeld von Operational und Service Excellence angewendet. KT wird im Prozess „Problem Management“ von ITIL empfohlen.

RCA Prozess
Schritte der Ursachenanalyse

Durchführung einer Root Cause Analyse

Bei der Durchführung einer Ursachenanalyse sollten zwei grundlegende Rahmenbedingungen beachtet werden:

  1. Viele Methoden zur Ursachenanalyse können grundsätzlich von einer einzelnen Person angewendet werden, doch ist das Ergebnis in der Regel besser, wenn eine Gruppe von Personen gemeinsam an der Suche nach den Problemursachen arbeitet. Dabei können auch Kreativitätstechniken wie Brainstorming hilfreich sein. Dies gilt insbes. bei komplexen IT-Problemen.
  2. Diejenigen, die letztendlich für die Beseitigung der ermittelten Ursache(n) verantwortlich sind, sollten prominente Mitglieder des Analyseteams sein, das sich daran macht, sie aufzudecken.

Der ideal-typische Ablauf einer Ursachenanalyse ist wie folgt:

Es wird die Entscheidung getroffen, ein Team zusammenzustellen, das die Ursachenanalyse durchführen soll. Bei Organisationen, die nach den ITIL-Best Practices arbeiten, wird dies im Prozess „Problem Management“ abgearbeitet.

Die Team-Mitglieder werden aus dem Fachbereich ausgewählt, der das Problem berichtet. Ein verantwortlicher Manager sollte die Ursachenanalyse als Sponsor unterstützen, damit das Team auch die nötige Unterstützung durch andere Abteilungen und Bereiche erfährt. Es sollte weiterhin ein Kunde bzw. User dem Team angehören, der mit dem Problem im täglichen Arbeitsablauf zu tun hat. 

Wie viel Zeit die Ursachenanalyse in Anspruch nimmt, hängt natürlich von der Komplexität des untersuchten Systems ab. Bei IT-Systemen wird nach einer größeren Störung meist erwartet, dass die Ursache innerhalb weniger Stunden oder Tage feststeht. Wird ein komplexer Produktionsablauf untersucht, kann die Analyse auch Wochen oder Monate dauern.

Dabei sollten während der Analyse alle Phasen gleich gewichtet werden:

  • Definition des Problems
  • Brainstorming möglicher Gründe
  • Analyse von Ursache und Wirkung
  • Ableitung einer dauerhaften Problemlösung

Während der Untersuchungen sollte das Team regelmäßige Meetings vereinbaren (mindestens wöchentlich, aber auch tägliche Meetings sind denkbar). Die Meetings sollten möglichst kurz gehalten werden (max. 2 Stunden) und sie sollten im Sinne der Problemfindung kreativ gestaltet werden, auf eine starre Agenda sollte verzichtet werden.

Ein Verantwortlicher (z.B. der Problem Manager) stellt sicher, dass die Ursachenforschung Fortschritte macht und das den Team-Mitglieder Aufgaben zugewiesen werden. Aufgaben und Beschlüsse sollten in einem Protokoll festgehalten und nach den Meetings an alle versendet werden.

Wenn eine Fehlerursache und eine Lösung dazu gefunden wurde, wird die Implementierung dieser Lösung geplant. Je nach erforderlichen Ressourcen und Skills kann die Implementierung der Lösung Tage, Wochen oder Monate in Anspruch nehmen.

Was ist eigentlich FinOps?

Bild mit altmodischer IT-Ausstattung
Photo by Alex Motoc on Unsplash

Es geht ein neue Abkürzung durch die IT-Welt: FinOps. Doch was ist das eigentlich?

Das Aufkommen und die zunehmende Nutzung von öffentlichen Cloud-Diensten hat Unternehmen aller Größenordnungen enorme Vorteile gebracht. Cloud-Dienste von Amazon Web Service, Google Cloud Platform oder Microsoft Azure ermöglichen eine schnelle Einrichtung und Bereitstellung von IT-Lösungen. Entwickler können mit einem Prototyp ihrer Idee klein anfangen und die Anwendung skalieren, sobald sie mehr Nutzer hat. Auch Geschäftsanwender können ihre Ideen mit Cloud-Diensten prototypisch umsetzen, ohne die IT-Abteilung fragen zu müssen. Es müssen keine teuren Server gekauft, keine Datenbanklizenzen erworben und keine Firewalls geöffnet werden. Sie können Ihre Umgebung nach Ihren Bedürfnissen aufrüsten, Sie haben ein Rechenzentrum, das jederzeit zur Verfügung steht. Mit einem Account bei Ihrem bevorzugten Cloud-Anbieter sind Sie startklar.

All dies ist eine großartige Möglichkeit, Innovationen in einem Unternehmen zu ermöglichen und voranzutreiben. Auch Nicht-IT-Mitarbeiter werden in die Lage versetzt, digitale Lösungen zu implementieren, zu testen, zu veröffentlichen und auch wieder zu verwerfen.

Auf den zweiten Blick…

Bei alle Freude über die vielen Vorteile der Cloud, gibt es auch eine zweite Seite der Medaille, sobald nämlich die monatliche Rechnung im Briefkasten liegt, wird der ein oder andere schockiert auch seinen Cloud-Träumen erwachen. Warum ist meine Rechnung so hoch? Was ist schief gelaufen, wenn ich nur einen On-Demand-Server, eine kleine Datenbankinstanz und eine Firewall eingerichtet habe? Zu Beginn eines Projekts ist es oft schwierig, die anfallenden Kosten realistisch abzuschätzen. In vielen Fällen wird das Budget überzogen. Woran liegt das?

Inwieweit FinOps hier helfen kann, möchte ich in diesem Beitrag skizzieren.

Viele IT-Teams sind es nicht gewohnt, sich laufend mit den Kosten auseinanderzusetzen und diese zu kontrollieren. Solange man sich im eigenen Rechenzentrum befindet, war die Beschaffung von Hardware ein einfacher Prozess.

Mit Public-Cloud-Services können die Ausgaben außer Kontrolle geraten, da sich niemand wirklich um die variablen Ausgaben kümmert. Ehemalige Gatekeeper wie Finanzen, Controlling oder Beschaffung mit ihren mühsamen und zeitaufwändigen Prozessen gibt es – Gott sei Dank – nicht mehr. Umgebungen werden eingerichtet, aber in einigen Fällen werden diese Umgebungen nicht mehr genutzt, sie werden nicht mehr gewartet, man vergisst sie und sie werden zu teuren Lost (IT-) Places…

Bild eines verlassenen Ortes
Photo by Denny Müller on Unsplash

Die Rechnungen landen weiter in Ihrem Briefkasten. Früher oder später wird der Leiter der Finanzabteilung an Ihre Tür klopfen und nach Gründen fragen. Dies wird wahrscheinlich kein angenehmes Gespräch werden.

Die Finanzabteilung ist auf die Cloud-Welt nicht vorbereitet. Der Wandel ist notwendig, da sich riesige Beträge und Budgets von Investitionen (CapEx) zu wiederkehrenden Betriebskosten (OpEx) verschieben.

Die Lösung ist FinOps

FinOps, Financial Operations, Cloud Financial Operations sind die gleiche Bezeichnung für ein neues IT- und Finanzmodell. Es wurde als Reaktion auf die strukturelle Volatilität der öffentlichen Cloud-Dienste geschaffen. FinOps ist eine Veränderung der Denkweise, Teil eines kollektiven Umdenkens in den Technologiesektoren unserer Welt.

Es ist eine Best Practice zur Überwindung von Silos innerhalb von Organisationen. DevOps ist ein ähnliches Beispiel für die Verbesserung der Zusammenarbeit und Verantwortlichkeit zwischen Softwareentwicklung und IT-Betrieb.

Diese neu geschaffene Verbindung zwischen ehemals getrennten Abteilungen führt zu einer stärkeren gegenseitigen Kommunikation und verfeinert letztlich viele Stufen der internen Lieferkette des Unternehmens.

Die Vorteile von FinOps

  • Finanzielle Rechenschaftspflicht für das variable Ausgabenmodell der Cloud
  • Verfeinert viele Stufen der internen Lieferkette
  • Befähigung der Teams, geschäftliche Kompromisse zwischen Geschwindigkeit, Kosten und Qualität zu schließen
  • Verschiebung der kulturellen Praxis, eine Möglichkeit für Teams, ihre Cloud-Kosten zu verwalten, bei der jeder Einzelne die Verantwortung für seine Cloud-Nutzung übernimmt
  • Die Teams erhalten mehr finanzielle Kontrolle und Vorhersehbarkeit
  • Verbessert die funktionsübergreifende Kommunikation
  • Erleichtert die gemeinsame Nutzung von Finanz- und Nutzungsinformationen

Jeder kann (und sollte) sich beteiligen

  • Executives, z.B. CIO, CTO und CFO
  • Finance & Procurement – Strategische Einkäufer, Financial Business Advisor
  • Product Owner wie z.B. Cloud Analysts und Business Analysts
  • Development & Engineering – Lead Software Engineers
  • Operations – System Engineers, Administratoren, DBAs

FinOps ist weder ein Prozess noch ein Service sondern ein Lösungsrahmen. Die FinOps-Foundation ist eine Non-Profit-Organisation für alle Unternehmen, die das FinOps-Modell anwenden.

Die Grundlage von FinOps bildet ein zirkuläres Modell mit drei Phasen:

Inform, Optimize and Operate

Bild mit den Prozess-Schritten von FinOps
Der FinOps-Zyklus (Quelle: www.finops.org)

FinOps – Gain more financial control and predictability over your cloud spend. Ensure you get the most value out of every dollar spent in cloud.

Finops.org

Was ist mit Ihnen? Haben Sie schon von FinOps gehört? Denken Sie, dass es ein hilfreiches Modell ist?

Teilen Sie gern Ihre Gedanken und Meinungen in den Kommentaren 👇👇⬇️👇⬇️⁉️❇️

DevOps – Was ist das?

Der Begriff DevOps, mit dem agile Arbeitsmethoden in den Arbeitsalltag einziehen, beschreibt eine Kombination aus Denkweisen, Praktiken und Tools, die es Unternehmen und Organisationen ermöglichen, Anwendungen und Dienste schneller und einfacher bereitzustellen. Der Begriff bezieht sich auf einen Ansatz zur Prozessverbesserung, der hauptsächlich im IT-Betrieb, vor allem in der Systemadministration im Zusammenspiel mit der Softwareentwicklung, eingesetzt wird. Es ist ein sogenanntes Kofferwort, das sich aus den englischen Begriffen für „Entwicklung“ und „IT-Sicherheitsbetrieb“ ableitet. DevOps hat das Ziel, in den Bereichen Implementierung, IT-Sicherheitsbetrieb und Qualitätssicherung für eine effizientere und effektivere Zusammenarbeit zu sorgen. Zu diesem Zweck werden spezielle Anreize, Instrumente und Prozesse eingesetzt. DevOps richtet sich methodisch sowohl an die Technik als auch auf die Prozessebene und stellt klassische ITIL-Prozesse wie Incident Management, Change Management oder Release Management auf den Prüfstand. ITIL (IT System Infrastructure Library) beschreibt eine strukturierte Prozesssammlung von Best Practices für das Service Management von IT-Systemen. IT Service Management oder ITSM ist seit mindestens 20 Jahren als Best Practice in der IT etabliert. Es ist ein Modell, das die zuverlässige Bereitstellung von Informationstechnologie als Dienstleistung für den Kunden als Ziel propagiert.

Motivation und Entstehung

Der Ansatz entstand aus dem erkenntnistheoretischen Denken, dass standardisierte Prozesse heute nicht mehr ausreichen, um wettbewerbsfähig zu bleiben. Der Übergang dorthin erfordert einen Wandel der Kultur und der Denkweise, denn traditionelle Unternehmen haben ihre, meist vor langer Zeit, etablierten Ansätze. Die Softwareentwickler-Communities auf der einen Seite und die IT/Ops-Experten auf der anderen Seite verfolgten unterschiedliche, oft konkurrierende Ziele, gehörten verschiedenen Abteilungen an, wurden nach verschiedenen KPIs (Key Performance Indicators) bewertet und arbeiteten auf verschiedenen Etagen oder sogar in verschiedenen Gebäuden. Es bedarf eines gemeinsamen Verständnis der Aufgaben, der Akzeptanz und der guten Zusammenarbeit der Entwickler. Der Kern von DevOps ist die Überwindung der Trennlinien zwischen zwei ehemals sehr isolierten Geschäftsbereichen, der Entwicklung und dem IT-Betrieb. Das Konzept basiert auf einer Kultur der Zusammenarbeit zwischen gemeinsamen Teams. Einfache Prozesse werden mit einem DevOps-Ansatz zunehmend programmierbar und dynamisch. Er zielt darauf ab, die Vorhersehbarkeit, Effizienz, Sicherheit und Wartbarkeit von Betriebsprozessen zu maximieren. Die Auswirkungen auf den IT-Betrieb nach der Einführung von DevOps wird in einem Artikel bei Heise Developer beleuchtet.

Praxis

Der Übergang zu DevOps erfordert einen grundlegenden Wandel der Unternehmenskultur und der Denkstrukturen. Unter anderem sind die Entwickler nun für mehr Prozesse verantwortlich. Es verändert die Denkweise, indem es alle Entwicklungsprozesse berücksichtigt und die Grenzen zwischen Entwickler- und Betriebsteam überwindet. Neu ist die Beschäftigung mit Automatisierung sowie die Handhabung von Versionsmanagement und automatisierten Tests. Entwickler im IT-Betrieb müssen sich möglicherweise an neue, bereichsübergreifende Key Performance Indicators (KPIs) und damit an gemeinsame Anreizkennzahlen anpassen. Oftmals agieren Unternehmen dabei in ihren Projekten nach Scrum in kleineren Teams von 5-9 Mitarbeitern, die autonom arbeiten dürfen.

Der DevOps-Kreislauf

Vorteile

Die schlechte Nachricht ist, dass es keine Magie ist und Transformationen nicht über Nacht stattfinden. DevOps selbst ist kein Instrument, aber Softwaretools für die automatisierte Automatisierung und Messung sind wesentliche Bestandteile einer erfolgreichen Implementierung. Aber das Herz dieser Anstrengung sind die Mitarbeiter und die Art und Weise, wie sie mit anderen zusammenarbeiten. Vorbei sind die Zeiten, in denen die IT-Abteilung einmal im Jahr ein größeres Update durchführen konnte. Noch relevanter sind die Konzepte der kontinuierlichen Verbesserung und Fehlerabdeckung. Dank der agilen Entwicklung ist die kontinuierliche Verbesserung zum Thema geworden. Diese Idee finde sich auch in ITIL Version 3 mit dem Prozess „Continual Service Improvement“, wobei dieser Prozess auf den IT-Betrieb gemünzt war. Zu den versprochenen Vorteilen von DevOps gehören mehr Vertrauen, schnellere Software-Releases, eine schnellere Beseitigung kritischer Softwarefehler und eine bessere Verwaltung ungeplanter Aufgaben. Vollständige Transparenz und nahtlose Kommunikation sorgen für minimale technische Ausfallzeiten und eine stark beschleunigte Problemlösung für DevOps-Teams. 

Auf kultureller Ebene verspricht DevOps zufriedenere, produktivere Mitarbeiter und Teams, mehr individuelles Engagement und bessere Möglichkeiten zur persönlichen Entfaltung und Weiterentwicklung. Auf der wirtschaftlichen Ebene geht es darum, die Bereitstellung neuer zusätzlicher Funktionen, stabilerer Anwendungen, effizienterer Prozesse und mehr Raum für Innovationen zu beschleunigen. Gerade die wirtschaftlichen Vorteile machen die Einführung von DevOps für viele Unternehmen attraktiv.

Nachteile

Die Vorteile werden ohnehin viel häufiger diskutiert als die Nachteile, da technische, kulturelle und wirtschaftliche Vorteile viel prägnanter behandelt werden können. Nicht alle Mitarbeiter sind immer offen für solche Veränderungen. Meistens sind die noch immer meist strengen Hierarchien in den Unternehmen in Deutschland ein Hindernis auf dem Weg zur erfolgreichen Einführung von DevOps. Dennoch bleibt die Tatsache bestehen, dass es aus dem Wunsch heraus entstanden ist, Softwareentwicklungen schneller zu liefern und damit auf dem deutschen Markt lukrativ zu bleiben.

Erfahrungen mit DevOps

Erfahrungsgemäß braucht eine Umstellung der Unternehmenskultur seine Zeit – und vor allem ist Geduld gefragt, denn oftmals muss DevOps in vielen kleinen Schritten sukzessive eingeführt werden. Wichtig ist vor allem, dass im Unternehmen geeignete Rahmenbedingungen geschaffen werden. Dinge wie Vertrauen und respektvoller Umgang müssen vorgelebt werden. Dann lassen sich die unter dem Punkt „Nachteile“ beschriebenen Bedenken und Probleme leichter aus der Welt schaffen. Oftmals findet es in der Praxis schon statt, ohne dass es so genannt wird und zeigt so, dass es sich immer mehr in den Unternehmen etabliert.

British Airways – Erneuter IT-Systemausfall

Am Samstag, den 27. Mai 2017, kam es bei der britischen Fluggesellschaft British Airways zu einer schwerwiegenden technischen Störung, die als IT-Systemausfall in der Presse vermeldet wurde. 

Was war passiert?

Betroffen waren Check-In,  Website und Call Center der Airline. Weltweit waren Hunderte Flüge betroffen, es kam zu massiven Verspätungen und Flugausfällen. An den Flughäfen Heathrow und Gatwick kam es zu chaotischen Zuständen. Die Meldung auf ba.com las sich so:

Die Mitteilung von British Airways zum IT-Systemausfall am 27. Mai 2017

Mitteilung von British Airways zum IT-Systemausfall am 27. Mai 2017

Aus Kundensicht ist damit wohl der Super-GAU eingetreten. In Großbritannien war ein langes Wochenende und Tausende Urlauber wollten in den Urlaub fliegen. Die wirtschaftliche Dimension des Systemausfalls kann als dramatisch bezeichnet werden.

Die Frage ist nun, wo die Ursache des Problems lag. BA hat recht schnell einen Cyberangriff ausgeschlossen und auf einen Fehler in der Stromversorgung verwiesen. Doch kann ein Stromausfall in einem Rechenzentrum die IT-Systeme einer gesamten Airline mit einer Flottenstärke von mehr als 250 Flugzeugen lahmlegen? Hat sich etwa einen zweiten RZ-Standort gespart, der im Ernstfall den IT-Betrieb hätte übernehmen können? Experten für den Aufbau von Rechenzentren bezweifeln diese Theorie mittlerweile.

Weiterlesen

« Ältere Beiträge
Diese Website benutzt Google Analytics. Bitte klicke hier wenn Du nicht möchtest dass Analytics Dein Surfverhalten mitverfolgt. Hier klicken um dich auszutragen.