Was hat uns “Summer of Outages” gezeigt und was können wir damit machen …

Was hat uns

Der Sommer 2019 war eine schwierige Zeit fĂŒr das Internet, und Systemfehler traten hĂ€ufig und schnell auf.

Einige dieser Fehler wurden durch interne Fehler verursacht, andere durch externe, aber es gab zwei ĂŒbergeordnete Ursachen: erhöhte NetzwerkkomplexitĂ€t sowie HĂ€ufigkeit und HĂ€ufigkeit von CodeĂ€nderungen. Zusammengenommen erinnern diese Unterbrechungen schmerzlich daran, wie fragil das Internet ist, zumal Netzwerke und Dienste immer mehr miteinander verbunden und voneinander abhĂ€ngig werden.

Die Hauptausfallzeit ist:

  • Am 2. Juni hatte Google einen Fehler, den das Unternehmen fĂŒr “hohe NetzwerkĂŒberlastung im Osten der USA” verantwortlich machte. Einige der beliebtesten Dienste, darunter Search, Nest, YouTube und Gmail, wurden eingestellt. Nicht lange danach brach Google Kalender scherzhaft zusammen und gab vielen Endbenutzern eine Entschuldigung, einen freien Tag anzukĂŒndigen.
  • Cloudflare fiel am 24. Juni aufgrund eines geringfĂŒgigen Netzwerklecks, das DomĂ€nen betraf, die von diesem fĂŒhrenden Content Delivery Network (CDN) abhĂ€ngig sind. Endbenutzer wurden von beliebten Diensten wie Discord, Google, Amazon und anderen ausgeschlossen.
  • Am 3. Juli waren sowohl Google als auch Cloudflare von weiteren AbstĂŒrzen betroffen.
  • Ebenfalls am 3. Juli hatte Facebook Probleme beim Laden von Fotos, Videos und anderen Daten in wichtigen Apps und Diensten wie Instagram, WhatsApp und Messenger. Facebook wurde fĂŒr einen “Fehler verantwortlich gemacht, der wĂ€hrend der routinemĂ€ĂŸigen Wartung ausgelöst wurde”.
  • Einen Tag spĂ€ter trat Apple dem Club bei. Die App Store, Apple Music und Apple TV hatten weitverbreitete Cloud-Ausfallzeiten von drei Monaten.
  • Am 11. Juli schließlich kam es bei Twitter zu stundenlangen Ausfallzeiten von Web- und mobilen Apps, die auf das zurĂŒckzufĂŒhren waren, was das Unternehmen als “interne SystemĂ€nderung” bezeichnete.

Sie können solche Fehler nicht verhindern, aber Sie können Ihre Organisation besser von solch wilder Unvorhersehbarkeit isolieren, indem Sie sich auf diese fĂŒnf Kategorien konzentrieren:

Seien Sie wachsam, wenn Sie AusfÀlle in so vielen geografischen Gebieten und Netzwerkperspektiven wie möglich beobachten: Ob verschiedene Endbenutzersegmente auf Ihre Website oder Ihren Service zugreifen können, hÀngt von der langen Kette leistungsbezogener Komponenten ab, die zwischen ihnen und dem Rechenzentrum stehen. Dies umfasst CDNs, Clouds, regionale und lokale ISPs, Mobilfunknetze und mehr.

Da der erste Schritt bei der Vorbereitung eines Ausfalls / der Reaktion darauf darin besteht, ihn proaktiv zu erkennen, ist es fast unmöglich, die VerfĂŒgbarkeit nur auf nationaler Ebene oder in einem begrenzten geografischen Gebiet zu testen. Das Gleiche gilt, wenn Sie nur von einer kleinen Anzahl von Netzwerkstandpunkten aus verfolgen, z. B. von der Cloud oder einer Handvoll Internetdienstanbieter oder Mobilfunkbetreiber. Dieser enge Ansatz hinterlĂ€sst erhebliche blinde Flecken. Eine umfassendere Abdeckung ermöglicht es Ihnen, weitere Fehler im Voraus zu melden und bietet eine bessere Möglichkeit, SicherungsplĂ€ne zu implementieren, falls verfĂŒgbar, oder proaktiv mit betroffenen Endbenutzern zu kommunizieren, indem Sie diese darĂŒber informieren, dass Sie an einem Problem arbeiten.

Reduzieren Sie die durchschnittliche Erkennungszeit und die durchschnittliche Reparaturzeit: WĂ€hrend eine frĂŒhzeitige Erkennung und Benachrichtigung ĂŒber einen Fehler nĂŒtzlich ist, hĂ€lt der Goodwill des Endbenutzers nur so lange an. Es reicht nicht aus, nur zu wissen, dass ein Ereignis stattfindet. Sie mĂŒssen auch schnell und schnell herausfinden, was es verursacht. In einigen FĂ€llen kann etwas in Ihrer eigenen Firewall das Problem sein, das Sie beheben können. In anderen FĂ€llen ist etwas defekt, ĂŒber das Sie keine direkte Kontrolle haben, z. B. ein Cloud-Dienst, ein CDN oder das Netz des Netzbetreibers.

Selbst wenn das Problem nicht direkt gelöst werden kann, ist dieses Wissen Macht – denn es bedeutet, dass Sie Ihre Teams von IT-Betreibern und Site Reliability Engineers (SRE) nicht in verschwendete Raumstunden schicken, was zu MĂŒdigkeit, Burnout und Verlust fĂŒhrt Eine Zeit, in der Sie sich proaktiv darauf konzentrieren können, die ZugĂ€nglichkeit langfristig zu verbessern.

Aktivieren Sie die BGP-Routenverfolgung – Das Internet ist im Grunde eine Verbindung, die Datensignale und Pakete ĂŒber verschiedene Netzwerkpfade ĂŒbertrĂ€gt. Mehrere Protokolle verwalten diesen Datenfluss, eines davon ist Border Gateway Protocol oder BGP. BGP regelt, wie Daten zwischen verschiedenen autonomen Netzwerkeinheiten ĂŒbertragen werden. Das Internet funktioniert zwar, aber aufgrund von EntfĂŒhrungen, Richtlinieninkongruenzen, Routenklappen und Peering-Problemen kann es zu einer ungĂŒltigen Umleitung kommen. Dies kann dazu fĂŒhren, dass Pakete versehentlich an das falsche Ziel gesendet werden oder vollstĂ€ndig abgelaufen sind.

Eines der sichtbaren Beispiele fĂŒr ein BGP-Leck war Google im vergangenen November. Im Fall von “Grand Theft Internet” wurde der Verkehr von Google-Diensten aus verschiedenen LĂ€ndern und Websites an IP-Adressen auslĂ€ndischer ISPs, einschließlich TransTelekom Russia und China Telecom, anstatt an Google-Server geleitet. Dies fĂŒhrte dazu, dass Pakete an verschiedene unbeabsichtigte Ziele gesendet wurden, bevor sie beendet wurden oder schwarze Löcher auftraten.

VorlĂ€ufige Berichte ĂŒber den Vorfall deuteten darauf hin, dass es sich um einen böswilligen BGP-Hack handeln könnte, da die betroffenen LĂ€nder in der Vergangenheit Internet-Zensur betrieben haben. SpĂ€ter wurde jedoch festgestellt, dass die falschen Weiterleitungen tatsĂ€chlich auf menschliches Versagen zurĂŒckzufĂŒhren waren. In diesem Fall werden Fehlkonfigurationen zwischen Google und MainOne festgestellt, einem nigerianischen ISP, den Google eingerichtet hat, um die wachsende PrĂ€senz Nigerias besser zu unterstĂŒtzen.

Da die Netzwerkerweiterungen rasant fortgesetzt werden, können solche BGP-Pannen hĂ€ufiger auftreten. WĂ€hrend ein Vorfall, der einen Drittanbieter betrifft, möglicherweise nicht viel bewirken kann, können Sie BGP-Lecks in Ihrer eigenen Anwendungsbereitstellungskette genauer verfolgen, um eine schnellere Identifizierung zu ermöglichen, bestimmte Ursachen auszuschließen und mit der Reparatur fortzufahren.

Automatisieren Sie Tests frĂŒh und hĂ€ufig: Es ist nie eine gute Idee, neuen Code direkt auf Ihrem Produktionssystem auszufĂŒhren. In der Eile, den Code freizugeben, kommt es jedoch hĂ€ufig vor, was zu Problemen fĂŒhrt. Google fĂŒhrt tĂ€glich Zehntausende neuer Code-Implementierungen fĂŒr Tausende von Diensten durch, von denen sieben weltweit ĂŒber eine Milliarde Nutzer haben.

Kein Wunder – SRE, die Erfahrung im IT-Betrieb haben und und die fĂŒr die Aufrechterhaltung der SystemverfĂŒgbarkeit angesichts nahezu stĂ€ndiger SoftwareĂ€nderungen verantwortlich sind – kĂŒrzlich wurde berichtet, dass das Incident Management einen großen Teil ihrer Arbeit ausmacht. Zum Zeitpunkt der Umfrage gab fast die HĂ€lfte der Befragten an, in der vergangenen Woche an einem Service-Vorfall gearbeitet zu haben.

Da sich das Tempo der Software-EinfĂŒhrung nicht so schnell verlangsamt, mĂŒssen Unternehmen in der Lage sein, Geschwindigkeit und QualitĂ€t besser in Einklang zu bringen. Der SchlĂŒssel dazu ist die verstĂ€rkte Automatisierung von funktionalen Softwaretests, die in den frĂŒhestmöglichen Phasen des Entwicklungszyklus durchgefĂŒhrt werden, sowie umfassende Regressionstests und Rollback-Funktionen.

Messen Sie Dritte und machen Sie sie verantwortlich: Dritte, von in die Website integrierten Softwarekomponenten bis hin zu Infrastrukturen von Drittanbietern wie Cloud- und CDN-Netzwerken, können einen großen Einfluss auf die VerfĂŒgbarkeit der Website haben. Jede Organisation, die auf externe Dritte angewiesen ist, muss diese sorgfĂ€ltig prĂŒfen, um ihre eigene VerfĂŒgbarkeit sicherzustellen.

Wenn es speziell um Clouds geht, sollten Unternehmen vermeiden, alle Eier (Daten und Anwendungen) in einen Korb (einen Cloud-Anbieter) zu legen. Die Bereitstellung einer Multicloud-Strategie als Form der Sicherung und des Schutzes kann viel Zeit und MĂŒhe kosten, einschließlich des Vortests der Failover-Strategie und der GewĂ€hrleistung schneller und zuverlĂ€ssiger Interaktionen zwischen Clouds (ReplikationsunterstĂŒtzung). Dies ist tatsĂ€chlich ein guter Anwendungsfall, bei dem es angebracht ist, verschiedene Wolken von einzelnen Aussichtspunkten aus zu ĂŒberwachen. Wie oben erwĂ€hnt, sollte die reine Cloud-Überwachung jedoch niemals verwendet werden, um die tatsĂ€chliche Endbenutzererfahrung umfassend zu messen.

Vorschlag: Die jĂŒngste Welle von Fehlern hat die Tatsache bestĂ€tigt, dass das Internet einem Haus mit Karten sehr Ă€hnlich ist und es praktisch unmöglich ist, grĂ¶ĂŸere Fehler und deren kaskadierende Auswirkungen zu vermeiden. Mit zunehmender Vernetzung Ihres Netzwerks steigt die Wahrscheinlichkeit ungeplanter Ausfallzeiten, die sich auf Ihr Unternehmen auswirken. GlĂŒcklicherweise gibt es Schritte, die Unternehmen unternehmen können, um diese Ereignisse besser zu antizipieren und darauf zu reagieren. Es mag schwer zu hören sein, aber die Fehlerplanung ist ein Muss. Wenn es Google, Facebook und Apple passieren kann, kann und wird es Ihnen unweigerlich passieren.

Bildquelle: Pathdoc / Shutterstock

Was Summer of Outages uns gezeigt hat und was wir dagegen tun können 1Mehdi Daoudi ist MitbegrĂŒnder und CEO von Catchpoint, einem fĂŒhrenden Unternehmen fĂŒr digitale Intelligenz. Sein Team verfĂŒgt ĂŒber Erfahrung im Entwerfen, Erstellen, Betreiben, Skalieren und Überwachen von hochtransaktionalen Webdiensten, die von Tausenden von Unternehmen verwendet werden und sich auf die Erfahrung von Millionen von Benutzern auswirken. Vor Catchpoint war Mehdi ĂŒber 10 Jahre bei DoubleClick und Google tĂ€tig, wo er fĂŒr die ServicequalitĂ€t, den Einkauf, den Aufbau, die Implementierung und die Verwendung von Überwachungslösungen zur Überwachung der Infrastruktur verantwortlich war, die Milliarden von Transaktionen pro Tag liefert.