Wczesne wykrywanie regionalnych awarii CDN

Dlaczego zdarzają się regionalne awarie i dlaczego są one niewidoczne dla większości systemów monitorowania

Internet nie jest pojedynczą siecią. Żądanie z Sydney przechodzi przez zupełnie inną infrastrukturę niż żądanie z Frankfurtu. Jeśli jakikolwiek element tej ścieżki regionalnej ulegnie awarii, dotyczy to tylko użytkowników w tym regionie.

Awarie serwera CDN Edge

Sieci CDN, takie jak Cloudflare, Fastly i Akamai, obsługują setki punktów obecności (PoP) na całym świecie. Kiedy na konkretnym serwerze brzegowym lub PoP występują problemy — awaria sprzętu, błędna konfiguracja lub problemy z wydajnością — dotyczy to tylko użytkowników przekierowanych do tego brzegu. Globalny status sieci CDN pozostaje „operacyjny”, ponieważ 95% krawędzi jest w porządku.

Przykład: w czerwcu 2022 r. Cloudflare miała 30-minutową awarię, która dotknęła 19 centrów danych ze względu na zmianę konfiguracji sieci. Użytkownicy w tych regionach zauważyli błędy; użytkownicy w innych miejscach nie doświadczyli niczego niezwykłego.

Regionalne awarie DNS

DNS to pierwszy krok w każdym żądaniu. Kiedy na serwerach DNS Cloudflare 1.1.1.1 lub Twojej CDN występują problemy w określonym regionie – źle skonfigurowana trasa anycast, przeciążony serwer nazw – użytkownicy w tym regionie nie mogą rozpoznać Twojej domeny. Ich przeglądarka wyświetla po prostu „DNS_PROBE_FINISHED_NXDOMAIN”.

Przykład: regionalne problemy z DNS mogą być spowodowane filtrowaniem na poziomie dostawcy usług internetowych, problemami z lokalnym programem rozpoznawania nazw lub problemami z routingiem anycast, które dotyczą tylko określonych obszarów geograficznych.

Problemy z routingiem i peeringiem BGP

Wycieki, przejęcia i błędne konfiguracje tras BGP mogą przekierować ruch na nieoptymalne ścieżki lub całkowicie go zablokować. Gdy główny operator w regionie ma problemy z routingiem, ruch z tego regionu do Twojej sieci CDN lub punktu początkowego może się nie powieść — nawet jeśli oba punkty końcowe działają doskonale.

Przykład: incydenty BGP regularnie wpływają na tysiące sieci. Pojedyncza źle skonfigurowana ścieżka AS może sprawić, że Twoja witryna będzie nieosiągalna z całych krajów przez wiele godzin, a jednocześnie będzie wyglądać dobrze z Twojej lokalizacji monitorowania.

Dostawca usług internetowych i łączność ostatniej mili

Główni dostawcy usług internetowych w określonych krajach mogli pogorszyć łączność z Twoją siecią CDN z powodu sporów peeringowych, zatorów lub problemów z infrastrukturą. Użytkownicy Telstry w Australii mogą doświadczyć awarii, podczas gdy użytkownicy Optus w tym samym mieście nie mają żadnych problemów – ponieważ ruch odbywa się różnymi ścieżkami.

Przykład: Spory peeringowe między dostawcami usług internetowych a dostawcami usług w chmurze w przeszłości powodowały wielotygodniowe degradacje, które dotykały miliony użytkowników na określonych rynkach.

Wspólny wątek: wszystkie te awarie mają zasięg geograficzny. Twoje pochodzenie się skończyło. Konfiguracja CDN jest poprawna. Jednak gdzieś pomiędzy Twoją krawędzią a użytkownikami w określonym regionie coś się zepsuło — a Twoje monitorowanie, które sprawdza z jednej lokalizacji w Wirginii, nie jest w stanie tego wykryć.

Dlaczego standardowe monitorowanie nie wykryje regionalnych przestojów

Większość monitorowania czasu pracy została zaprojektowana z myślą o prostszym problemie: „Czy serwer odpowiada?” W przypadku witryn przyspieszanych przez CDN obsługujących użytkowników z całego świata nie jest to już właściwe pytanie.

Sprawdzanie z 1-3 lokalizacji

Większość usług monitorowania domyślnie sprawdza w kilku lokalizacjach w USA lub UE. Jeśli Singapur PoP Cloudflare spadnie, Twój czek z Oregonu nadal się powiedzie — osiągnie inną, zdrową przewagę. Tymczasem użytkownicy w regionie Azji i Pacyfiku widzą błędy 502.

Kontrole syntetyczne między chmurami

Uruchamianie kontroli z AWS do Cloudflare wykorzystuje łączność szkieletową chmury — zoptymalizowane ścieżki, które nie reprezentują rzeczywistego ruchu użytkowników. Twoje syntetyczne sprawdzenie z AWS ap-sutheast-1 może ominąć dokładną ścieżkę sieciową, która nie działa dla użytkowników lokalnych dostawców usług internetowych.

Ufanie stronom statusu CDN

Strony stanu CDN odzwierciedlają ich widok wewnętrzny, często zagregowany dla setek punktów PoP. Problem regionalny wpływający na 5% ich infrastruktury może nie powodować aktualizacji strony stanu, ale te 5% może obejmować całą Azję Południowo-Wschodnią.

Brak widoczności warstwy sieci

Kontrole HTTP informują, czy żądanie się powiodło, czy nie, ale nie informują, gdzie to się nie udało. Bez danych śledzenia tras i opóźnień z dotkniętego regionu nie można określić, czy problemem jest DNS, konkretny przeskok sieci czy brzeg CDN.

Luka w wykrywaniu przestojów w Cloudflare

Cloudflare PoP na całym świecie 310+

Typowe lokalizacje monitoringu 1–5

Punkty PoP, które może zweryfikować Twój monitoring < 2%

Wykrywane regionalne awarie Może

Cloudflare ma ponad 310 punktów PoP. Jeśli monitorujesz z 3 lokalizacji, sprawdzasz mniej niż 1% krawędzi, na które mogą natrafić użytkownicy. To nie jest wykrywanie przestojów — to nadzieja na najlepsze.

Co się stanie, gdy regionalne awarie pozostaną niewykryte?

Z każdą minutą, w której awaria Cloudflare lub regionalna awaria CDN pozostaje niewykryta, tracisz użytkowników, przychody i zaufanie do rynków, z których możesz nawet nie zdawać sobie sprawy, że obsługujesz.

Cicha utrata przychodów

Regionalna awaria w godzinach pracy w tej strefie czasowej może kosztować godziny transakcji, rejestracji lub wywołań API. Użytkownicy nie wysyłają e-maili z informacją, że Twoja witryna jest niedostępna — po prostu ją opuszczają. Później zauważysz spadek wskaźników regionalnych, bez jasnego przypisania przyczyny.

Incydenty zgłoszone przez klientów

Klienci korporacyjni mają umowy SLA. Kiedy nie mogą uzyskać dostępu do Twojej platformy, a Ty nawet nie wiesz, że wystąpił problem, jest to zła rozmowa. „Nie wykryliśmy awarii” nie jest odpowiedzią budującą zaufanie — zwłaszcza gdy płacą za niezawodność.

Awarie SEO i Googlebota

Googlebot indeksuje z wielu lokalizacji na całym świecie. Jeśli Twoja krawędź CDN w regionie zwraca błędy lub powolne odpowiedzi, ma to wpływ na budżet indeksowania, oceny Core Web Vitals i ostatecznie na rankingi. Możesz zauważyć spadek ruchu na określonych rynkach bez oczywistej przyczyny.

Problem MTTR

Średni czas do odzyskania (MTTR) rozpoczyna się w momencie wykrycia problemu. Jeśli regionalna awaria Cloudflare dotyka użytkowników przez 2 godziny, zanim dowiesz się o niej ze zgłoszenia klienta, do efektywnego MTTR zostaną dodane 2 godziny. Proaktywne wykrywanie to jedyny sposób na zminimalizowanie rzeczywistego wpływu przestojów.

ROZWIĄZANIE

Jak prawidłowo wykryć awarie Cloudflare i regionalne awarie CDN

Wykrywanie regionalnych przestojów wymaga monitorowania z miejsca, w którym znajdują się użytkownicy, oraz dogłębnej diagnostyki umożliwiającej identyfikację miejsc występowania awarii.

1

Monitoruj z ponad 50 lokalizacji na całym świecie

Każda lokalizacja monitorowania trafia na różne krawędzie CDN i przechodzi przez różne ścieżki sieciowe. Aby wykryć regionalne awarie, potrzebujesz węzłów w każdym regionie, w którym występuje znaczący ruch — w regionie Azji i Pacyfiku, Europie, obu Amerykach, Bliskim Wschodzie i Afryce. Nie tylko „międzynarodowe” – zwłaszcza tam, gdzie przebywają Twoi użytkownicy.

Monitorowanie z ponad 50 lokalizacji obejmuje główne punkty PoP CDN i ścieżki dostawców usług internetowych.

2

Traceroute i zestawienie opóźnień

Kiedy kontrola w Singapurze kończy się niepowodzeniem, ale w innym miejscu kończy się sukcesem, musisz wiedzieć: czy chodzi o DNS? Konkretny przeskok sieciowy? Krawędź CDN? Traceroute i MTR z dotkniętej lokalizacji dostarczają dowodów potrzebnych do zdiagnozowania pierwotnej przyczyny i przekazania sprawy do Cloudflare, dostawcy usług internetowych lub dostawcy usług hostingowych.

Dane diagnostyczne zmieniają „coś jest zepsute” w pierwotną przyczynę, którą można podjąć.

3

Porównanie historyczne według regionu

Czy 400 ms od Tokio jest normalne, czy jest to degradacja krawędzi Cloudflare? Dane historyczne na lokalizację tworzą wartości bazowe, które pozwalają wykryć powolne awarie — wzrost opóźnień nie powoduje poważnych awarii, ale pogarsza komfort użytkownika. Możesz wykryć regionalny problem z CDN, zanim stanie się on pełną awarią.

Linie bazowe wychwytują degradacje, zanim staną się przestojami.

Niezbędne możliwości wykrywania regionalnych przestojów

HTTP/HTTPS z weryfikacją kodu stanu

Rozpoznawanie DNS z każdej lokalizacji

Czas uzgadniania SSL/TLS

TTFB i czas pełnej odpowiedzi

Trasowanie trasy i MTR na żądanie

Progi alertów dla poszczególnych lokalizacji

Integracje webhooka i Slacka

Przechowywanie danych historycznych

Praktyczna lista kontrolna: konfigurowanie wykrywania regionalnych przestojów

Przewodnik krok po kroku dotyczący wdrażania monitorowania, które wychwytuje awarie Cloudflare i regionalne awarie CDN, zanim użytkownicy je zgłoszą.

1

Mapuj lokalizację geograficzną użytkowników na lokalizacje monitorowania

Sprawdź swoje statystyki, aby określić, gdzie znajdują się Twoi użytkownicy. Jeśli 20% ruchu pochodzi z regionu Azji i Pacyfiku, potrzebujesz tam wielu węzłów monitorowania — Singapur, Tokio, Sydney, Bombaj. Dopasuj zakres monitorowania do rzeczywistej dystrybucji użytkowników.

2

Monitoruj punkty końcowe z interfejsem CDN

Skonfiguruj monitory HTTP dla głównych adresów URL przechodzących przez Cloudflare lub Twoją sieć CDN. Powinny one trafić na krawędź CDN, a nie bezpośrednio na Twoje źródło. Uwzględnij domenę aplikacji, punkty końcowe interfejsu API i wszelkie krytyczne strony publiczne.

3

Ustaw progi opóźnień dla każdego regionu

Różne regiony mają różne opóźnienia podstawowe. Skonfiguruj progi, które mają sens: być może 500 ms od Europy jest akceptowalne, ale 500 ms od wschodu Stanów Zjednoczonych (jeśli tam znajduje się Twoje źródło) wskazuje na problem z krawędzią CDN. Użyj danych historycznych, aby ustalić realistyczne wartości bazowe.

4

Skonfiguruj alerty dotyczące błędów regionalnych

Skonfiguruj alerty uruchamiane w przypadku awarii określonych regionów — a nie tylko w przypadku awarii wszystkich lokalizacji. Awaria występująca wyłącznie w Singapurze jest nadal przestojem, o którym warto wiedzieć. Kieruj alerty o wysokim priorytecie do Slack, PagerDuty lub systemu zarządzania incydentami.

5

Włącz funkcję Traroute w celu diagnostyki incydentów

Kiedy uruchomi się alert, musisz szybko ustalić: czy jest to problem Cloudflare? Problem ze ścieżką sieciową? DNS? Włącz na żądanie funkcję śledzenia tras i MTR z lokalizacji monitorowania, aby móc natychmiast zbierać dane diagnostyczne.

6

Utwórz elementy Runbook na potrzeby eskalacji usługi CDN

Udokumentuj proces: Jak zweryfikować regionalną awarię Cloudflare. Gdzie sprawdzić API statusu Cloudflare. Jak otworzyć bilet z dowodem. Jakie środki zaradcze można zastosować (przełączenie awaryjne, obejście pamięci podręcznej itp.). Posiadanie tego rozwiązania znacznie zmniejsza MTTR.

7

Co tydzień przeglądaj trendy regionalne

Ustaw cotygodniowe przypomnienie w kalendarzu, aby sprawdzić opóźnienia i czas pracy w poszczególnych regionach. Poszukaj wzorców: czy region APAC jest stale wolniejszy? Czy w określonym miejscu występują regularne sygnały? Przegląd proaktywny wychwytuje powolne degradacje, zanim będą one miały znaczący wpływ na użytkowników.

8

Rozważ korzystanie z wielu sieci CDN w przypadku usług krytycznych

W przypadku usług, w przypadku których awarie regionalne są niedopuszczalne, należy rozważyć strategię wielu CDN, w której DNS może przełączać się awaryjnie między dostawcami. Wymaga to niezależnego monitorowania każdej sieci CDN i posiadania automatyzacji, która może przełączać ruch. To złożoność, ale to odporność.

JEDNA OPCJA

Jak Latency Global radzi sobie z wykrywaniem regionalnych przestojów

Latency Global został zbudowany, aby wykrywać dokładnie tego rodzaju problemy — awarie Cloudflare, awarie regionalnych sieci CDN i problemy z siecią, których brakuje w monitorowaniu pojedynczej lokalizacji. Monitorujemy z 70+ rzeczywistych lokalizacji na 6 kontynentach, obejmujących wszystkie główne regiony PoP CDN.

Każde sprawdzenie obejmuje pełny podział czasu — rozdzielczość DNS, połączenie TCP, uzgadnianie TLS, TTFB i całkowity czas odpowiedzi. Jeśli coś ulegnie awarii w określonym regionie, możesz uruchomić polecenie Traceroute i MTR z tej lokalizacji, aby dokładnie określić, gdzie na ścieżce sieciowej wystąpił problem. Ceny są proste: 5 USD/miesiąc za 5 monitorów ze wszystkimi lokalizacjami.

Ponad 70 globalnych lokalizacji monitorowania (+40 wkrótce)

1-minutowe odstępy między kontrolami

Pełny podział opóźnień na sprawdzenie

Traceroute i MTR z dowolnej lokalizacji

Alerty Slack, e-mail i webhook

Rozpoczęcie o godz

5 dolarów

na miesiąc

W zestawie 5 monitorów

Wszystkie ponad 70 lokalizacji na całym świecie (+40 wkrótce)

HTTP, DNS, SSL, Ping, Traceroute, MTR

Pełny dostęp do API

Żadnych umów, możesz anulować w dowolnym momencie

Wykrywanie regionalnych przestojów wymaga infrastruktury w wielu lokalizacjach — dlatego większość narzędzi monitorujących albo jej nie oferuje, albo pobiera opłaty dla przedsiębiorstw. Koncentrujemy się na tym, co ważne: zasięgu i głębokości diagnostycznej.

Często zadawane pytania

Co to jest regionalna awaria CDN?

Regionalna awaria sieci CDN ma miejsce, gdy określone serwery brzegowe lub punkty obecności (PoP) w sieci CDN ulegają awarii lub ulegają degradacji, podczas gdy inne brzegi nadal działają. Na przykład Cloudflare może mieć problemy z Singapurskim PoP, podczas gdy ich amerykańskie i europejskie brzegi działają dobrze. Użytkownicy przekierowujący przez dotkniętą krawędź doświadczają błędów lub niskiej wydajności; użytkownicy w innych miejscach niczego nie zauważają. Te awarie są niewidoczne dla monitorowania, które sprawdza tylko regiony, których nie dotyczą.

Dlaczego strona stanu Cloudflare nie pokazuje regionalnych awarii?

Strony stanu CDN zazwyczaj pokazują łączny stan globalny, a nie stan poszczególnych punktów sprzedaży. Gdy problem dotyczy 5% krawędzi, ogólny stan może pozostać „Działający”, ponieważ 95% infrastruktury działa. Strony stanu również charakteryzują się opóźnieniami w aktualizacji — wykrycie, zweryfikowanie i opublikowanie problemów wymaga czasu. Ponadto niektóre problemy nie spełniają progu publicznego ujawnienia, ale mimo to wpływają na użytkowników. Niezależny monitoring z wielu lokalizacji to jedyny sposób, aby uzyskać podstawową wiedzę na temat dostępności regionalnej.

Ile lokalizacji monitorowania potrzebuję, aby wykryć awarie Cloudflare?

Potrzebujesz lokalizacji monitorowania co najmniej w każdym większym regionie, w którym masz użytkowników: co najmniej w Ameryce Północnej, Europie i regionie Azji i Pacyfiku. Aby zapewnić lepszy zasięg, ponad 50 lokalizacji rozmieszczonych na całym świecie będzie w stanie wykryć większość problemów regionalnych. Kluczem jest dopasowanie zasięgu monitorowania do lokalizacji geograficznej użytkowników — jeśli 30% Twoich użytkowników znajduje się w regionie APAC, potrzebujesz tam wielu węzłów (Singapur, Tokio, Sydney, Bombaj). Nie chodzi o dopasowanie każdego PoP CDN, ale o uwzględnienie głównych grup regionalnych.

Co powinienem zrobić, gdy wykryję regionalną awarię Cloudflare?

Najpierw zbierz dowody diagnostyczne: traceroute i MTR z dotkniętej lokalizacji, kody odpowiedzi HTTP i dane o czasie oraz znaczniki czasu. Sprawdź stronę stanu Cloudflare i Twittera, aby uzyskać potwierdzenie. Jeśli jest to wyraźnie problem Cloudflare, otwórz zgłoszenie do pomocy technicznej, przedstawiając swoje dowody. Aby natychmiast zaradzić problemowi, rozważ: tymczasowe ominięcie Cloudflare dla dotkniętego regionu (jeśli Twoje źródło może sobie z tym poradzić), włączenie zapasowej sieci CDN, jeśli masz możliwość obsługi wielu CDN lub zaktualizowanie strony stanu, aby potwierdzić problem do czasu, aż Cloudflare go rozwiąże. Udokumentuj wszystko do przeglądu po incydencie.

Czy mogę wykryć, czy problemem jest DNS, CDN czy pochodzenie?

Tak, z odpowiednimi urządzeniami monitorującymi. Pełny czas sprawdzania HTTP pokazuje: czas rozpoznawania DNS (jeśli DNS zawodzi lub jest powolny, wiesz, że to problem DNS), czas połączenia TCP (problemy ze ścieżką sieciową), czas uzgadniania TLS (problemy z certyfikatem lub kryptowalutą) oraz czas TTFB/odpowiedzi (problemy z początkiem lub przetwarzaniem brzegowym). Traceroute pokazuje ścieżkę sieciową oraz miejsca, w których pakiety są odrzucane lub opóźniane. Porównując te dane z regionu, którego dotyczy problem, z regionami w dobrej kondycji, można dokładnie określić, gdzie w łańcuchu żądań występuje awaria.

Jak szybko można wykryć regionalne awarie?

Dzięki 1-minutowym interwałom kontrolnym możesz wykryć awarię w ciągu 1-2 minut od jej uruchomienia. Większość usług monitorujących potwierdza awarię po 2-3 kolejnych awariach, aby uniknąć ostrzegania w przypadku przejściowych impulsów, dlatego realistyczny czas wykrycia wynosi 2-5 minut. Porównaj to z awariami zgłaszanymi przez klientów, których ujawnienie za pośrednictwem zgłoszeń do pomocy technicznej może zająć kilka godzin. Różnica w MTTR jest znacząca — 5 minut w porównaniu z 2 godzinami oznacza zupełnie inny wpływ na użytkownika.

Czy dotyczy to innych sieci CDN poza Cloudflare?

Absolutnie. Szybko Akamai, AWS CloudFront, Google Cloud CDN, Azure CDN i każda inna sieć CDN mogą doświadczyć regionalnych przestojów. Obowiązują te same zasady: sieci CDN mają infrastrukturę rozproszoną, a każdy system rozproszony może mieć częściowe awarie. Podejście do wykrywania jest takie samo — monitoruj z wielu lokalizacji na całym świecie, aby wychwycić problemy wpływające na określone krawędzie lub regiony, niezależnie od używanej sieci CDN.

Twój CDN wyświetla komunikat „Wszystkie systemy działają”. Twoi użytkownicy w Azji nie zgadzają się.

Wiadomość Slack o 3 nad ranem, która zmienia sposób myślenia o awariach