#17 Was können wir beim Incident Management von der Feuerwehr lernen?
Engineering Kiosk - Ein Podcast von Wolfgang Gassler, Andy Grunwald - Dienstags
Kategorien:
Was haben die Methoden der Feuerwehr zur Bekämpfung von Großschadensereignissen mit dem Incident Management von IT-Systemen gemeinsam? Diese Frage klären wir in der folgenden Episode. Wolfgang, als Mitglied der freiwilligen Feuerwehr, gibt einen Einblick in das Prozedere, wenn die Feuerwehr ausrückt. Andy vergleicht dies mit dem Incident Management von Cloud-Systemen. Wir klären wie man den Schaden eines Incidents misst, was dies mit dem Vertrauen von Kunden zu tun hat, wie ordentliche Prävention aussehen kann und warum es dafür wenig Ruhm gibt, was man unter War- und Peacetime versteht, wie ein moderner “Schreiberling” aussieht, wie dreist Presseleute sein können und was eine kleine Konferenz in Kalifornien damit zu tun hat.Bonus: Was Gartenschläuche und Stahl-Hochöfen damit zu tun haben und wieso Kaffee holen doch eine Strategie sein kann.Feedback an [email protected] oder via Twitter an https://twitter.com/EngKioskLinksDatenverlust bei 1.500 Snapshots von Hetzner Cloud: https://www.golem.de/news/trotz-redundanz-datenverlust-bei-1-500-snapshots-von-hetzner-cloud-2204-164628.htmlCeph Storage: https://ceph.io/Inside the Longest Atlassian Outage of All Time: https://newsletter.pragmaticengineer.com/p/scoop-atlassianAtlassian stoppt den Verkauf von On-Premise Lizenzen: https://www.atlassian.com/migration/assess/journey-to-cloudauditd: https://linux.die.net/man/8/auditdrsyslog: https://www.rsyslog.com/Incident.io: https://incident.io/5-Why-Methode: https://de.wikipedia.org/wiki/5-Why-MethodePostmortem “Roblox Return to Service 10/28-10/31 2021”: https://blog.roblox.com/2022/01/roblox-return-to-service-10-28-10-31-2021/Postmortem “The Discovery of Apache ZooKeeper’s Poison Packet”: https://www.pagerduty.com/blog/the-discovery-of-apache-zookeepers-poison-packet/Postmortem “etcd: v3.5 data inconsistency”: https://github.com/etcd-io/etcd/blob/main/Documentation/postmortems/v3.5-data-inconsistency.mdPostmortem: “Gocardless: Incident review: API and Dashboard outage on 10 October 2017”: https://gocardless.com/blog/incident-review-api-and-dashboard-outage-on-10th-october/Postmortem: “Monzo,Outage, 29. July 2019”: https://monzo.com/blog/2019/09/08/why-monzo-wasnt-working-on-july-29thSammlung von verschiedenen Postmortems: https://github.com/danluu/post-mortemsOpsGenie: https://www.atlassian.com/de/software/opsgeniePagerDuty: https://www.pagerduty.com/Buch “Incident Management for Operations”: https://www.amazon.de/Incident-Management-Operations-Rob-Schnepp/dp/1491917628Sprungmarken(00:00:00) Intro(00:01:21) Wie viel Feuerwehr-Leute gibt es in Deutschland?(00:02:58) Was ist Incident Management im DevOps/Infrastruktur-Bereich(00:07:33) Firmen-Interne Incidents können ebenfalls richtig teuer werden(00:09:14) Wie wichtig ist Prävention und Monitoring?(00:10:26) Wie agiert ein Unternehmen bei einem IT-Incident? Chaotische Hilfe(00:12:33) Inwieweit kann ein IT-Incident mit einem Großschadensereignis verglichen werden?(00:14:14) Was ist ein Großschadensereignis?(00:15:57) Wie bekommen denn alle mit, dass ein Incident gerade eintritt? Und welche Strukturen sind notwendig?(00:17:43) Wer übernimmt die Rolle des (Incident) Commanders?(00:19:21) Was beinhaltet denn die Übernahme eines Incidents?(00:21:23) Vergleich von der Übernahme eines Incidents zwischen der Feuerwehr und einem IT-System(00:23:43) Strategie der Feuerwehr bei Incidents und Hierarchien(00:26:14) Ist der Einsatzleiter ein aktiver Teil des Incidents? Und welche Rollen gibt es noch?(00:30:09) Kommunikationsstrukturen in IT-Incidents(00:33:01) Der aktuelle Atlassian-Incident(00:34:44) Die Rollen von Logistik und Administration in der Feuerwehr und in der IT(00:37:16) (Essens)-Logistik bei Remote-Incidents(00:40:19) War-Rooms: Anti-Pattern oder Must-Have + Pro-Aktive Kommunikation(00:43:26) War- und Peace-Time(00:44:19) Incident Commander, Rollen und Rollen-Rotation im IT-Bereich(00:45:53) Die Rolle des Protokollführers / Schreiberlings(00:50:46) Post Mortems und Nachbesprechungen: Warum machen die Sinn?(00:54:21) Vorbereitungen, Prävention und Training in der Friedenszeit(00:57:51) Lernen aus Incidents und die Post Mortem-Struktur(01:00:09) Employer Branding mit Post Mortems(01:01:45) Happy-Path in Post Mortems(01:02:35) Nachbesprechung bei der Feuerwehr und Post Mortem Conferences(01:06:45) Web-Ops / Fire-Ops-Conference(01:09:40) OutroHostsWolfgang Gassler (https://twitter.com/schafele)Andy Grunwald (https://twitter.com/andygrunwald)Engineering Kiosk Podcast: Anfragen an [email protected] oder via Twitter an https://twitter.com/EngKiosk