Artikel und Berichte für einen sicheren und stabilen IT Betrieb

Kategorie: Allgemein (Seite 1 von 3)

Was ist eine Ursachenanalyse?

Die kindliche Neugier ist grenzenlos. Wann immer Kinder etwas nicht verstehen, wollen sie dieser spannenden neuen Sache auf den Grund gehen. Das führt immer zur Frage an die Eltern: Warum ist das so? Hat man eine einigermaßen kinngerechte Antwort gegeben, folgt sofort das nächste neugierige „Warum?“. Wieder versucht man eine abschließende Antwort zu geben, doch der Nachwuchs läßt sich nicht abspeisen – „Und warum?“.

Die kleinen Kinder gehen damit intuitiv wie bei einer Ursachenanalyse vor. Sie wollen eine Sache auf den Grund gehen. Sie sind auf der Suche nach der Ursache, der ultimativen Erklärung. Auf englisch nennen wir die „Root Cause“.

Unter einer Root Cause wird allgemein gesprochen ein Fehler in einer Software-Applikation oder einem digitalen Prozess verstanden. Genauer ist die Bezeichnung „Non-Konformität“, da das Verhalten nicht unbedingt einen Fehler im umgangssprachlichen Sinne darstellen muss. So könnte z.B. auch eine Hacker-Attacke auf ein System mit einer Root Cause Analyse untersucht und die ausgenutzte Schwachstelle (hoffentlich) gefunden werden.

Im abschließenden Schritt soll mit der RCA die Non-Konformität geschlossen werden. Die Root Cause löst die Ursachen-Wirkungskette aus, die schlußendlich zu einem oder mehreren Problemen führt.

Die Ursachenanalyse (Root Cause Analysis) beschreibt eine Menge an Vorgehensweise, Werkzeugen und Techniken, um zugrundeliegende Probleme einer Störung zu ermitteln.

Es finden sich Methoden der Ursachenanalyse, die die echten technischen Problemursachen zu identifizieren versuchen, während auch eher generelle Problemlösungstechniken genutzt werden können.

Woher kommt die Ursachenanalyse?

Die Ursachenanalyse gehört zum Bereich des Qualitätsmanagements und hier insbes. zur Methode des „Total Qualitäty Managements“ (TQM), die ihren Ursprung in der japanischen Automobilindustrie hat. Im TQM finden sich versch. Methoden und Techniken der Problemanalyse, Problemlösung und Ursachenanalyse (RCA).

Ursachenanalyse ist Teil eines übergreifenden Problemlösungsprozess und ist in der IT ein integraler Bestandteil des ITIL-Prozesses „Continual Service Improvement“.

Wie erfolgt eine (Fehler-) Ursachenanalyse?

Die wichtigsten Methoden finden sich im Folgenden:

Events and Causal Factor (ECF) Analysis: Die Methode ist verbreitet bei der Untersuchung von großen Einzelstörungen, wie z.B. eine Explosion in einer Raffinierie. Der Prozess nutzt die rasche und strukturierte Aufnahme von  Beweise, die in die zeitliche Reihenfolge ihres Auftreten gebracht werden. Wenn die zeitliche Verlauf klar ist, werden die kausalen und unterstützenden Faktoren identifiziert.

Change Analysis: Diese Form der Ursachenanalyse wird genutzt, wenn sich die Performance eines Systems deutlich verschlechtert. Dabei werden alle Veränderungen bei Mitarbeitern, Ausrüstungen und Informationen untersucht sowie weitere Faktoren, die die Performance eines Systems beeinflusst haben könnten.

Fehlerbaumanalyse (Fault Tree Analysis FTA): Diese Methode eignet sich, um ausgehend von einem unerwünschten definierten Ereignis rückwärts gerichtet dessen Ursachen zu ermitteln, auch Top-down-Ansatz genannt. Man geht vom Allgemeinen zum Speziellen und prüft auf jeder Ebene des Systems eine mögliche Beteiligung der Subservices geprüft. Dabei entsteht eine baumartige Struktur der Fehlermöglichkeiten.

Kepner-Tregoe Methode (KT) und Entscheidungsfindung: Dieses Modell unterscheidet vier einzelne Phasen des Problemlösungsprozesses:

  • Situationsanalyse
  • Problemanalyse
  • Lösungsanalyse
  • Analyse potentieller Probleme

KT wird insbes. im Umfeld von Operational und Service Excellence angewendet. KT wird im Prozess „Problem Management“ von ITIL empfohlen.

RCA Prozess
Schritte der Ursachenanalyse

Durchführung einer Root Cause Analyse

Bei der Durchführung einer Ursachenanalyse sollten zwei grundlegende Rahmenbedingungen beachtet werden:

  1. Viele Methoden zur Ursachenanalyse können grundsätzlich von einer einzelnen Person angewendet werden, doch ist das Ergebnis in der Regel besser, wenn eine Gruppe von Personen gemeinsam an der Suche nach den Problemursachen arbeitet. Dabei können auch Kreativitätstechniken wie Brainstorming hilfreich sein. Dies gilt insbes. bei komplexen IT-Problemen.
  2. Diejenigen, die letztendlich für die Beseitigung der ermittelten Ursache(n) verantwortlich sind, sollten prominente Mitglieder des Analyseteams sein, das sich daran macht, sie aufzudecken.

Der ideal-typische Ablauf einer Ursachenanalyse ist wie folgt:

Es wird die Entscheidung getroffen, ein Team zusammenzustellen, das die Ursachenanalyse durchführen soll. Bei Organisationen, die nach den ITIL-Best Practices arbeiten, wird dies im Prozess „Problem Management“ abgearbeitet.

Die Team-Mitglieder werden aus dem Fachbereich ausgewählt, der das Problem berichtet. Ein verantwortlicher Manager sollte die Ursachenanalyse als Sponsor unterstützen, damit das Team auch die nötige Unterstützung durch andere Abteilungen und Bereiche erfährt. Es sollte weiterhin ein Kunde bzw. User dem Team angehören, der mit dem Problem im täglichen Arbeitsablauf zu tun hat. 

Wie viel Zeit die Ursachenanalyse in Anspruch nimmt, hängt natürlich von der Komplexität des untersuchten Systems ab. Bei IT-Systemen wird nach einer größeren Störung meist erwartet, dass die Ursache innerhalb weniger Stunden oder Tage feststeht. Wird ein komplexer Produktionsablauf untersucht, kann die Analyse auch Wochen oder Monate dauern.

Dabei sollten während der Analyse alle Phasen gleich gewichtet werden:

  • Definition des Problems
  • Brainstorming möglicher Gründe
  • Analyse von Ursache und Wirkung
  • Ableitung einer dauerhaften Problemlösung

Während der Untersuchungen sollte das Team regelmäßige Meetings vereinbaren (mindestens wöchentlich, aber auch tägliche Meetings sind denkbar). Die Meetings sollten möglichst kurz gehalten werden (max. 2 Stunden) und sie sollten im Sinne der Problemfindung kreativ gestaltet werden, auf eine starre Agenda sollte verzichtet werden.

Ein Verantwortlicher (z.B. der Problem Manager) stellt sicher, dass die Ursachenforschung Fortschritte macht und das den Team-Mitglieder Aufgaben zugewiesen werden. Aufgaben und Beschlüsse sollten in einem Protokoll festgehalten und nach den Meetings an alle versendet werden.

Wenn eine Fehlerursache und eine Lösung dazu gefunden wurde, wird die Implementierung dieser Lösung geplant. Je nach erforderlichen Ressourcen und Skills kann die Implementierung der Lösung Tage, Wochen oder Monate in Anspruch nehmen.

Wie Facebook aus dem Internet verschwand

Am 4. Oktober 2021 gegen 18:30 Uhr MESZ kam ein großer Teil der digitalen Welt zum Stillstand. Das Zuckerberg-Imperium war für seine Nutzer nicht mehr erreichbar. Whatsapp, Facebook und Instagram waren offline und mein Traum als Privatsphären-Enthusiast wurde endlich wahr 😀

Doch was war eigentlich passiert? Wenn Sie sich für die Ursachen dieser Facebook-Katastrophe interessieren, empfehle ich Ihnen diesen Blogartikel von Cloudfare, einem großen Netzwerkanbieter:

https://blog.cloudflare.com/october-2021-facebook-outage/

Der Artikel ist sehr technisch geschrieben, gibt aber einen erschreckenden Überblick darüber, wie abhängig wir von großen Plattformen geworden sind und wie anfällig ihre Infrastruktur ist.


Haben Sie den Ausfall bemerkt? Lassen Sie es mich in den Kommentaren wissen.

„IT service management is not going away, but will rather continue to evolve to meet the needs of businesses. Emerging technologies like cloud services may help streamline processes, automate software deployments or facilitate remote work, but the need for managing services to the expectations of businesses will remain.“

Corona als Chance für die Digitalisierung

Das Corona-Virus hält immer noch die ganze Welt in Atem. Staaten wurden heruntergefahren, das öffentliche Leben nahezu eingestellt, teilweise wurden Grundrechte eingeschränkt (Shutdown oder Lockdown). Auch wenn sich die Lage zwischenzeitlich etwas entspannt hat, bleibt das weitere Infektionsgeschehen unübersichtlich. Doch in all dem Trubel voller Unsicherheiten und Unwägbarkeiten gibt es auch positive Nachrichten. Strenge Hygienevorschriften und Social Distancing sorgen für ungekannte Lösungen: Die Großmutter etwa, die zum ersten Mal zum Smartphone greift, um mit ihren Enkeln per Videocall in Kontakt zu bleiben. Lieferdienste, nicht nur für Pizza, sondern für alle Artikel des täglichen Lebens erleben einen wahren Boom. Die in kürzester Zeit entwickelte Corona-App der Bundesregierung wurde mittlerweile millionenfach heruntergeladen. Und dies sind nur drei sehr plakative Beispiele.

Schon immer waren Krisen Triebfeder für Veränderungen. In puncto Digitalisierung setzt die Corona-Pandemie aktuell eine Entwicklung in Gang, die ansonsten Jahre oder Jahrzehnte gedauert hätte. 

Noch 2019 waren die Deutschen das Volk, das europaweit mit am häufigsten auf Bargeld setzte. Laut EHI wurden im vergangenen Jahr rund drei Viertel aller Einkäufe im stationären Handel bar bezahlt. Aus hygienischen Gründen bitten die Supermärkte aktuell darum, per Karte zu bezahlen, um das Personal und Kunden zu schützen. Die Barzahlung wurde damit stark zurückgedrängt – noch vor wenigen Monaten wäre das undenkbar gewesen.

Digitalisierung ist die seit den 1970er Jahren laufende Umwandlung von analogen Inhalten und Prozessen hin zu digitalen Formaten und Arbeitsweisen. Die Vorteile liegen klar auf der Hand: Digitale Daten können beliebig vervielfältigt und verteilt werden, sind kostengünstiger, können durchsucht und mit deutlich weniger Platzaufwand gespeichert werden. In puncto Sicherheit gibt es aber auch Risiken. Sind Daten digital verfügbar, können Hacker theoretisch darauf Zugriff erlangen. Jahrelang hegten Betriebsräte, ITler, Datenschutzbeauftragte und Manager genau aus diesem und anderen Gründen Bedenken gegenüber der Digitalisierung von Prozessen – wie etwa der Heimarbeit.

Im Angesicht der Corona-Krise wurden diese Befürchtungen schnell über Bord geworfen, denn die Geschäftstätigkeit vieler Unternehmen konnte nur durch Homeoffice bzw. mobiles Arbeiten erhalten bleiben. Selten ging ein Paradigmenwechsel in der Arbeitswelt so schnell. Das mobile Arbeiten wurde alternativlos und Firmenchefs erkannten, dass die Energie der Arbeitnehmer im Homeoffice viel ungestörter in die eigentliche Aufgabe fließt – statt in den Arbeitsweg oder den Bürotratsch. Die Unternehmen könnten sogar langfristig an dieser Regelung festhalten, denn der befürchtete Produktivitätseinbruch ist bislang nicht zu verzeichnen. Darüber hinaus schont die Heimarbeit auch noch die Umwelt. 

Gleiches gilt für viele Lehreinrichtungen: Universitäten, die früher auf Anwesenheitspflicht und Präsenzveranstaltungen Wert legten, bieten heute Lehrveranstaltungen im Internet an. Studenten können ihre Hausarbeiten digital einreichen und an virtuellen Vorlesungen im Netz teilnehmen. Weiterbildungen von Arbeitnehmern finden zunehmend in der Form des „e-Learnings“, also als Videokurse statt. Selbst der sensible Bereich des Gesundheitswesen steht vor großen Umbrüchen. Die Krankschreibung per Telefon wurde bereits während der Corona-Pandemie eingeführt und immer mehr Ärzte bieten Sprechstunden per Chat oder Video an.

Was vor kurzem noch unmöglich schien, ist heute Realität. Die Krise hilft uns also, alte Denkmuster zu hinterfragen und neue, digitale Wege zu beschreiten. Für eine nachhaltige gemeinsame Zukunft nach Corona.

« Ältere Beiträge
Diese Website benutzt Google Analytics. Bitte klicke hier wenn Du nicht möchtest dass Analytics Dein Surfverhalten mitverfolgt. Hier klicken um dich auszutragen.