Torsten Laser - IT Service Management

Artikel und Berichte für einen sicheren und stabilen IT Betrieb

Was ist eine Ursachenanalyse?

Die kindliche Neugier ist grenzenlos. Wann immer Kinder etwas nicht verstehen, wollen sie dieser spannenden neuen Sache auf den Grund gehen. Das führt immer zur Frage an die Eltern: Warum ist das so? Hat man eine einigermaßen kinngerechte Antwort gegeben, folgt sofort das nächste neugierige „Warum?“. Wieder versucht man eine abschließende Antwort zu geben, doch der Nachwuchs läßt sich nicht abspeisen – „Und warum?“.

Die kleinen Kinder gehen damit intuitiv wie bei einer Ursachenanalyse vor. Sie wollen eine Sache auf den Grund gehen. Sie sind auf der Suche nach der Ursache, der ultimativen Erklärung. Auf englisch nennen wir die „Root Cause“.

Unter einer Root Cause wird allgemein gesprochen ein Fehler in einer Software-Applikation oder einem digitalen Prozess verstanden. Genauer ist die Bezeichnung „Non-Konformität“, da das Verhalten nicht unbedingt einen Fehler im umgangssprachlichen Sinne darstellen muss. So könnte z.B. auch eine Hacker-Attacke auf ein System mit einer Root Cause Analyse untersucht und die ausgenutzte Schwachstelle (hoffentlich) gefunden werden.

Im abschließenden Schritt soll mit der RCA die Non-Konformität geschlossen werden. Die Root Cause löst die Ursachen-Wirkungskette aus, die schlußendlich zu einem oder mehreren Problemen führt.

Die Ursachenanalyse (Root Cause Analysis) beschreibt eine Menge an Vorgehensweise, Werkzeugen und Techniken, um zugrundeliegende Probleme einer Störung zu ermitteln.

Es finden sich Methoden der Ursachenanalyse, die die echten technischen Problemursachen zu identifizieren versuchen, während auch eher generelle Problemlösungstechniken genutzt werden können.

Woher kommt die Ursachenanalyse?

Die Ursachenanalyse gehört zum Bereich des Qualitätsmanagements und hier insbes. zur Methode des „Total Qualitäty Managements“ (TQM), die ihren Ursprung in der japanischen Automobilindustrie hat. Im TQM finden sich versch. Methoden und Techniken der Problemanalyse, Problemlösung und Ursachenanalyse (RCA).

Ursachenanalyse ist Teil eines übergreifenden Problemlösungsprozess und ist in der IT ein integraler Bestandteil des ITIL-Prozesses „Continual Service Improvement“.

Wie erfolgt eine (Fehler-) Ursachenanalyse?

Die wichtigsten Methoden finden sich im Folgenden:

Events and Causal Factor (ECF) Analysis: Die Methode ist verbreitet bei der Untersuchung von großen Einzelstörungen, wie z.B. eine Explosion in einer Raffinierie. Der Prozess nutzt die rasche und strukturierte Aufnahme von  Beweise, die in die zeitliche Reihenfolge ihres Auftreten gebracht werden. Wenn die zeitliche Verlauf klar ist, werden die kausalen und unterstützenden Faktoren identifiziert.

Change Analysis: Diese Form der Ursachenanalyse wird genutzt, wenn sich die Performance eines Systems deutlich verschlechtert. Dabei werden alle Veränderungen bei Mitarbeitern, Ausrüstungen und Informationen untersucht sowie weitere Faktoren, die die Performance eines Systems beeinflusst haben könnten.

Fehlerbaumanalyse (Fault Tree Analysis FTA): Diese Methode eignet sich, um ausgehend von einem unerwünschten definierten Ereignis rückwärts gerichtet dessen Ursachen zu ermitteln, auch Top-down-Ansatz genannt. Man geht vom Allgemeinen zum Speziellen und prüft auf jeder Ebene des Systems eine mögliche Beteiligung der Subservices geprüft. Dabei entsteht eine baumartige Struktur der Fehlermöglichkeiten.

Kepner-Tregoe Methode (KT) und Entscheidungsfindung: Dieses Modell unterscheidet vier einzelne Phasen des Problemlösungsprozesses:

  • Situationsanalyse
  • Problemanalyse
  • Lösungsanalyse
  • Analyse potentieller Probleme

KT wird insbes. im Umfeld von Operational und Service Excellence angewendet. KT wird im Prozess „Problem Management“ von ITIL empfohlen.

RCA Prozess
Schritte der Ursachenanalyse

Durchführung einer Root Cause Analyse

Bei der Durchführung einer Ursachenanalyse sollten zwei grundlegende Rahmenbedingungen beachtet werden:

  1. Viele Methoden zur Ursachenanalyse können grundsätzlich von einer einzelnen Person angewendet werden, doch ist das Ergebnis in der Regel besser, wenn eine Gruppe von Personen gemeinsam an der Suche nach den Problemursachen arbeitet. Dabei können auch Kreativitätstechniken wie Brainstorming hilfreich sein. Dies gilt insbes. bei komplexen IT-Problemen.
  2. Diejenigen, die letztendlich für die Beseitigung der ermittelten Ursache(n) verantwortlich sind, sollten prominente Mitglieder des Analyseteams sein, das sich daran macht, sie aufzudecken.

Der ideal-typische Ablauf einer Ursachenanalyse ist wie folgt:

Es wird die Entscheidung getroffen, ein Team zusammenzustellen, das die Ursachenanalyse durchführen soll. Bei Organisationen, die nach den ITIL-Best Practices arbeiten, wird dies im Prozess „Problem Management“ abgearbeitet.

Die Team-Mitglieder werden aus dem Fachbereich ausgewählt, der das Problem berichtet. Ein verantwortlicher Manager sollte die Ursachenanalyse als Sponsor unterstützen, damit das Team auch die nötige Unterstützung durch andere Abteilungen und Bereiche erfährt. Es sollte weiterhin ein Kunde bzw. User dem Team angehören, der mit dem Problem im täglichen Arbeitsablauf zu tun hat. 

Wie viel Zeit die Ursachenanalyse in Anspruch nimmt, hängt natürlich von der Komplexität des untersuchten Systems ab. Bei IT-Systemen wird nach einer größeren Störung meist erwartet, dass die Ursache innerhalb weniger Stunden oder Tage feststeht. Wird ein komplexer Produktionsablauf untersucht, kann die Analyse auch Wochen oder Monate dauern.

Dabei sollten während der Analyse alle Phasen gleich gewichtet werden:

  • Definition des Problems
  • Brainstorming möglicher Gründe
  • Analyse von Ursache und Wirkung
  • Ableitung einer dauerhaften Problemlösung

Während der Untersuchungen sollte das Team regelmäßige Meetings vereinbaren (mindestens wöchentlich, aber auch tägliche Meetings sind denkbar). Die Meetings sollten möglichst kurz gehalten werden (max. 2 Stunden) und sie sollten im Sinne der Problemfindung kreativ gestaltet werden, auf eine starre Agenda sollte verzichtet werden.

Ein Verantwortlicher (z.B. der Problem Manager) stellt sicher, dass die Ursachenforschung Fortschritte macht und das den Team-Mitglieder Aufgaben zugewiesen werden. Aufgaben und Beschlüsse sollten in einem Protokoll festgehalten und nach den Meetings an alle versendet werden.

Wenn eine Fehlerursache und eine Lösung dazu gefunden wurde, wird die Implementierung dieser Lösung geplant. Je nach erforderlichen Ressourcen und Skills kann die Implementierung der Lösung Tage, Wochen oder Monate in Anspruch nehmen.

Was ist eigentlich FinOps?

Bild mit altmodischer IT-Ausstattung
Photo by Alex Motoc on Unsplash

Es geht ein neue Abkürzung durch die IT-Welt: FinOps. Doch was ist das eigentlich?

Das Aufkommen und die zunehmende Nutzung von öffentlichen Cloud-Diensten hat Unternehmen aller Größenordnungen enorme Vorteile gebracht. Cloud-Dienste von Amazon Web Service, Google Cloud Platform oder Microsoft Azure ermöglichen eine schnelle Einrichtung und Bereitstellung von IT-Lösungen. Entwickler können mit einem Prototyp ihrer Idee klein anfangen und die Anwendung skalieren, sobald sie mehr Nutzer hat. Auch Geschäftsanwender können ihre Ideen mit Cloud-Diensten prototypisch umsetzen, ohne die IT-Abteilung fragen zu müssen. Es müssen keine teuren Server gekauft, keine Datenbanklizenzen erworben und keine Firewalls geöffnet werden. Sie können Ihre Umgebung nach Ihren Bedürfnissen aufrüsten, Sie haben ein Rechenzentrum, das jederzeit zur Verfügung steht. Mit einem Account bei Ihrem bevorzugten Cloud-Anbieter sind Sie startklar.

All dies ist eine großartige Möglichkeit, Innovationen in einem Unternehmen zu ermöglichen und voranzutreiben. Auch Nicht-IT-Mitarbeiter werden in die Lage versetzt, digitale Lösungen zu implementieren, zu testen, zu veröffentlichen und auch wieder zu verwerfen.

Auf den zweiten Blick…

Bei alle Freude über die vielen Vorteile der Cloud, gibt es auch eine zweite Seite der Medaille, sobald nämlich die monatliche Rechnung im Briefkasten liegt, wird der ein oder andere schockiert auch seinen Cloud-Träumen erwachen. Warum ist meine Rechnung so hoch? Was ist schief gelaufen, wenn ich nur einen On-Demand-Server, eine kleine Datenbankinstanz und eine Firewall eingerichtet habe? Zu Beginn eines Projekts ist es oft schwierig, die anfallenden Kosten realistisch abzuschätzen. In vielen Fällen wird das Budget überzogen. Woran liegt das?

Inwieweit FinOps hier helfen kann, möchte ich in diesem Beitrag skizzieren.

Viele IT-Teams sind es nicht gewohnt, sich laufend mit den Kosten auseinanderzusetzen und diese zu kontrollieren. Solange man sich im eigenen Rechenzentrum befindet, war die Beschaffung von Hardware ein einfacher Prozess.

Mit Public-Cloud-Services können die Ausgaben außer Kontrolle geraten, da sich niemand wirklich um die variablen Ausgaben kümmert. Ehemalige Gatekeeper wie Finanzen, Controlling oder Beschaffung mit ihren mühsamen und zeitaufwändigen Prozessen gibt es – Gott sei Dank – nicht mehr. Umgebungen werden eingerichtet, aber in einigen Fällen werden diese Umgebungen nicht mehr genutzt, sie werden nicht mehr gewartet, man vergisst sie und sie werden zu teuren Lost (IT-) Places…

Bild eines verlassenen Ortes
Photo by Denny Müller on Unsplash

Die Rechnungen landen weiter in Ihrem Briefkasten. Früher oder später wird der Leiter der Finanzabteilung an Ihre Tür klopfen und nach Gründen fragen. Dies wird wahrscheinlich kein angenehmes Gespräch werden.

Die Finanzabteilung ist auf die Cloud-Welt nicht vorbereitet. Der Wandel ist notwendig, da sich riesige Beträge und Budgets von Investitionen (CapEx) zu wiederkehrenden Betriebskosten (OpEx) verschieben.

Die Lösung ist FinOps

FinOps, Financial Operations, Cloud Financial Operations sind die gleiche Bezeichnung für ein neues IT- und Finanzmodell. Es wurde als Reaktion auf die strukturelle Volatilität der öffentlichen Cloud-Dienste geschaffen. FinOps ist eine Veränderung der Denkweise, Teil eines kollektiven Umdenkens in den Technologiesektoren unserer Welt.

Es ist eine Best Practice zur Überwindung von Silos innerhalb von Organisationen. DevOps ist ein ähnliches Beispiel für die Verbesserung der Zusammenarbeit und Verantwortlichkeit zwischen Softwareentwicklung und IT-Betrieb.

Diese neu geschaffene Verbindung zwischen ehemals getrennten Abteilungen führt zu einer stärkeren gegenseitigen Kommunikation und verfeinert letztlich viele Stufen der internen Lieferkette des Unternehmens.

Die Vorteile von FinOps

  • Finanzielle Rechenschaftspflicht für das variable Ausgabenmodell der Cloud
  • Verfeinert viele Stufen der internen Lieferkette
  • Befähigung der Teams, geschäftliche Kompromisse zwischen Geschwindigkeit, Kosten und Qualität zu schließen
  • Verschiebung der kulturellen Praxis, eine Möglichkeit für Teams, ihre Cloud-Kosten zu verwalten, bei der jeder Einzelne die Verantwortung für seine Cloud-Nutzung übernimmt
  • Die Teams erhalten mehr finanzielle Kontrolle und Vorhersehbarkeit
  • Verbessert die funktionsübergreifende Kommunikation
  • Erleichtert die gemeinsame Nutzung von Finanz- und Nutzungsinformationen

Jeder kann (und sollte) sich beteiligen

  • Executives, z.B. CIO, CTO und CFO
  • Finance & Procurement – Strategische Einkäufer, Financial Business Advisor
  • Product Owner wie z.B. Cloud Analysts und Business Analysts
  • Development & Engineering – Lead Software Engineers
  • Operations – System Engineers, Administratoren, DBAs

FinOps ist weder ein Prozess noch ein Service sondern ein Lösungsrahmen. Die FinOps-Foundation ist eine Non-Profit-Organisation für alle Unternehmen, die das FinOps-Modell anwenden.

Die Grundlage von FinOps bildet ein zirkuläres Modell mit drei Phasen:

Inform, Optimize and Operate

Bild mit den Prozess-Schritten von FinOps
Der FinOps-Zyklus (Quelle: www.finops.org)

FinOps – Gain more financial control and predictability over your cloud spend. Ensure you get the most value out of every dollar spent in cloud.

Finops.org

Was ist mit Ihnen? Haben Sie schon von FinOps gehört? Denken Sie, dass es ein hilfreiches Modell ist?

Teilen Sie gern Ihre Gedanken und Meinungen in den Kommentaren 👇👇⬇️👇⬇️⁉️❇️

Wie Facebook aus dem Internet verschwand

Am 4. Oktober 2021 gegen 18:30 Uhr MESZ kam ein großer Teil der digitalen Welt zum Stillstand. Das Zuckerberg-Imperium war für seine Nutzer nicht mehr erreichbar. Whatsapp, Facebook und Instagram waren offline und mein Traum als Privatsphären-Enthusiast wurde endlich wahr 😀

Doch was war eigentlich passiert? Wenn Sie sich für die Ursachen dieser Facebook-Katastrophe interessieren, empfehle ich Ihnen diesen Blogartikel von Cloudfare, einem großen Netzwerkanbieter:

https://blog.cloudflare.com/october-2021-facebook-outage/

Der Artikel ist sehr technisch geschrieben, gibt aber einen erschreckenden Überblick darüber, wie abhängig wir von großen Plattformen geworden sind und wie anfällig ihre Infrastruktur ist.


Haben Sie den Ausfall bemerkt? Lassen Sie es mich in den Kommentaren wissen.

„IT service management is not going away, but will rather continue to evolve to meet the needs of businesses. Emerging technologies like cloud services may help streamline processes, automate software deployments or facilitate remote work, but the need for managing services to the expectations of businesses will remain.“

Corona als Chance für die Digitalisierung

Das Corona-Virus hält immer noch die ganze Welt in Atem. Staaten wurden heruntergefahren, das öffentliche Leben nahezu eingestellt, teilweise wurden Grundrechte eingeschränkt (Shutdown oder Lockdown). Auch wenn sich die Lage zwischenzeitlich etwas entspannt hat, bleibt das weitere Infektionsgeschehen unübersichtlich. Doch in all dem Trubel voller Unsicherheiten und Unwägbarkeiten gibt es auch positive Nachrichten. Strenge Hygienevorschriften und Social Distancing sorgen für ungekannte Lösungen: Die Großmutter etwa, die zum ersten Mal zum Smartphone greift, um mit ihren Enkeln per Videocall in Kontakt zu bleiben. Lieferdienste, nicht nur für Pizza, sondern für alle Artikel des täglichen Lebens erleben einen wahren Boom. Die in kürzester Zeit entwickelte Corona-App der Bundesregierung wurde mittlerweile millionenfach heruntergeladen. Und dies sind nur drei sehr plakative Beispiele.

Schon immer waren Krisen Triebfeder für Veränderungen. In puncto Digitalisierung setzt die Corona-Pandemie aktuell eine Entwicklung in Gang, die ansonsten Jahre oder Jahrzehnte gedauert hätte. 

Noch 2019 waren die Deutschen das Volk, das europaweit mit am häufigsten auf Bargeld setzte. Laut EHI wurden im vergangenen Jahr rund drei Viertel aller Einkäufe im stationären Handel bar bezahlt. Aus hygienischen Gründen bitten die Supermärkte aktuell darum, per Karte zu bezahlen, um das Personal und Kunden zu schützen. Die Barzahlung wurde damit stark zurückgedrängt – noch vor wenigen Monaten wäre das undenkbar gewesen.

Digitalisierung ist die seit den 1970er Jahren laufende Umwandlung von analogen Inhalten und Prozessen hin zu digitalen Formaten und Arbeitsweisen. Die Vorteile liegen klar auf der Hand: Digitale Daten können beliebig vervielfältigt und verteilt werden, sind kostengünstiger, können durchsucht und mit deutlich weniger Platzaufwand gespeichert werden. In puncto Sicherheit gibt es aber auch Risiken. Sind Daten digital verfügbar, können Hacker theoretisch darauf Zugriff erlangen. Jahrelang hegten Betriebsräte, ITler, Datenschutzbeauftragte und Manager genau aus diesem und anderen Gründen Bedenken gegenüber der Digitalisierung von Prozessen – wie etwa der Heimarbeit.

Im Angesicht der Corona-Krise wurden diese Befürchtungen schnell über Bord geworfen, denn die Geschäftstätigkeit vieler Unternehmen konnte nur durch Homeoffice bzw. mobiles Arbeiten erhalten bleiben. Selten ging ein Paradigmenwechsel in der Arbeitswelt so schnell. Das mobile Arbeiten wurde alternativlos und Firmenchefs erkannten, dass die Energie der Arbeitnehmer im Homeoffice viel ungestörter in die eigentliche Aufgabe fließt – statt in den Arbeitsweg oder den Bürotratsch. Die Unternehmen könnten sogar langfristig an dieser Regelung festhalten, denn der befürchtete Produktivitätseinbruch ist bislang nicht zu verzeichnen. Darüber hinaus schont die Heimarbeit auch noch die Umwelt. 

Gleiches gilt für viele Lehreinrichtungen: Universitäten, die früher auf Anwesenheitspflicht und Präsenzveranstaltungen Wert legten, bieten heute Lehrveranstaltungen im Internet an. Studenten können ihre Hausarbeiten digital einreichen und an virtuellen Vorlesungen im Netz teilnehmen. Weiterbildungen von Arbeitnehmern finden zunehmend in der Form des „e-Learnings“, also als Videokurse statt. Selbst der sensible Bereich des Gesundheitswesen steht vor großen Umbrüchen. Die Krankschreibung per Telefon wurde bereits während der Corona-Pandemie eingeführt und immer mehr Ärzte bieten Sprechstunden per Chat oder Video an.

Was vor kurzem noch unmöglich schien, ist heute Realität. Die Krise hilft uns also, alte Denkmuster zu hinterfragen und neue, digitale Wege zu beschreiten. Für eine nachhaltige gemeinsame Zukunft nach Corona.

« Ältere Beiträge
Diese Website benutzt Google Analytics. Bitte klicke hier wenn Du nicht möchtest dass Analytics Dein Surfverhalten mitverfolgt. Hier klicken um dich auszutragen.