Сбои Cloudflare, региональные сбои CDN и ухудшение качества на периферийном уровне не всегда отображаются на страницах состояния. Когда токийский POP вашей CDN выходит из строя, но его глобальный статус отображается зеленым, ваш мониторинг из Вирджинии не отловит это.
Для обнаружения региональных сбоев требуется мониторинг того места, где фактически находятся ваши пользователи, а не только того, где находится ваша инфраструктура.
Сейчас 3 часа ночи. Ваш дежурный инженер получает сообщение об успехе клиента: «Три корпоративных клиента в Сингапуре сообщили, что не могут получить доступ к приложению. Началось около двух часов назад».
Вы проверяете панель мониторинга — все зеленое. Страница статуса Cloudflare — рабочая. AWS — инцидентов нет. Ваш APM — маленькие веселые графики. Итак, вы просите клиентов повторить попытку, очистить кэш, проверить сеть.
Но это продолжает происходить. Больше билетов из того же региона. Наконец, кто-то запускает трассировку с сингапурского VPS и обнаруживает: трафик достигает границы Cloudflare, которая возвращает 502. В CDN произошел региональный сбой, затронувший одну точку доступа, и в вашем стеке мониторинга ничего не проверяется из этого региона.
Два часа простоя. Для конкретной географии. Ноль оповещений. Это слепое пятно, о котором рассказывается на этой странице.
Будь то отключение Cloudflare, сбой Fastly Edge или региональная деградация Akamai — для обнаружения этих проблем требуется мониторинг из затронутых регионов. Таким образом вы выявляете проблемы до того, как они перерастут в эскалацию со стороны клиентов.
Интернет — это не единая сеть. Запрос из Сиднея проходит через совершенно другую инфраструктуру, чем запрос из Франкфурта. Если какой-либо участок регионального пути выходит из строя, это затрагивает только пользователей в этом регионе.
CDN, такие как Cloudflare, Fastly и Akamai, управляют сотнями точек присутствия (PoP) по всему миру. Когда на конкретном пограничном сервере или PoP возникают проблемы (сбой оборудования, неправильная конфигурация или проблемы с емкостью), это затрагивает только пользователей, направленных на этот край. Глобальный статус CDN остается «рабочим», поскольку 95% ребер в порядке.
Пример. В июне 2022 года в Cloudflare произошел 30-минутный сбой в работе 19 центров обработки данных из-за изменения конфигурации сети. Пользователи в этих регионах видели ошибки; пользователи в других местах не заметили ничего необычного.
DNS — это первый шаг в любом запросе. Когда у Cloudflare 1.1.1.1 или DNS-серверов вашего CDN возникают проблемы в определенном регионе — неправильно настроенный маршрут произвольной рассылки, перегруженный сервер имен — пользователи в этом регионе не могут разрешить ваш домен. Их браузер просто показывает «DNS_PROBE_FINISHED_NXDOMAIN».
Пример. Региональные проблемы DNS могут быть вызваны фильтрацией на уровне интернет-провайдера, проблемами локального преобразователя или проблемами произвольной маршрутизации, которые затрагивают только определенные географические области.
Утечки маршрутов BGP, перехваты и неправильные настройки могут перенаправить трафик по неоптимальным путям или полностью заблокировать его. Если у основного оператора связи в регионе возникают проблемы с маршрутизацией, трафик из этого региона в вашу CDN или источник может прерваться, даже если обе конечные точки функционируют идеально.
Пример. Инциденты BGP регулярно затрагивают тысячи сетей. Один неправильно настроенный путь AS может сделать ваш сайт недоступным из целых стран на несколько часов, при этом он будет выглядеть нормально с вашего местоположения мониторинга.
У крупных интернет-провайдеров в определенных странах может быть ухудшено качество подключения к вашей CDN из-за пиринговых споров, перегрузки или проблем с инфраструктурой. У пользователей Telstra в Австралии могут возникнуть сбои, в то время как у пользователей Optus в том же городе проблем не возникает, поскольку трафик идет по разным путям.
Пример: Пиринговые споры между интернет-провайдерами и поставщиками облачных услуг исторически приводили к многонедельным сбоям в работе, затрагивающим миллионы пользователей на определенных рынках.
Общая мысль: Все эти сбои имеют географический охват. Ваше происхождение установлено. Конфигурация CDN правильная. Но где-то между вашим краем и пользователями в определенном регионе что-то сломалось — и ваш мониторинг, который проверяет из одного места в Вирджинии, не имеет возможности это обнаружить.
Большая часть мониторинга работоспособности была разработана для решения более простой проблемы: «Отвечает ли сервер?» Для сайтов с ускорением CDN, обслуживающих пользователей по всему миру, это уже не правильный вопрос.
Большинство служб мониторинга по умолчанию проверяют информацию из нескольких мест в США или ЕС. Если точка доступа Cloudflare в Сингапуре выйдет из строя, ваш чек из Орегона все равно будет успешным — он достигнет другого, здорового преимущества. Тем временем ваши пользователи из Азиатско-Тихоокеанского региона видят ошибки 502.
При выполнении проверок из AWS в Cloudflare используется подключение к облачной магистрали — оптимизированные пути, которые не отражают реальный пользовательский трафик. Синтетическая проверка от AWS ap-southeast-1 может обойти именно тот сетевой путь, который не работает для пользователей локальных интернет-провайдеров.
Страницы статуса CDN отражают их внутреннее представление, часто агрегированное по сотням PoP. Региональная проблема, затрагивающая 5% их инфраструктуры, может не вызвать обновление страницы статуса, но эти 5% могут включать всю Юго-Восточную Азию.
HTTP-проверки сообщают вам, был ли запрос успешным или неудачным, но не сообщают, где он не удался. Без данных трассировки маршрута и задержки из затронутого региона вы не сможете определить, связана ли проблема с DNS, конкретным сетевым прыжком или границей вашей CDN.
Cloudflare имеет более 310 точек доступа. Если ваш мониторинг проверяет из трех мест, вы проверяете менее 1% ребер, с которыми могут столкнуться ваши пользователи. Это не обнаружение сбоев — это надежда на лучшее.
Каждую минуту, когда сбой Cloudflare или региональный сбой CDN остаются незамеченными, вы теряете пользователей, доходы и доверие к рынкам, которые вы, возможно, даже не осознаете, что обслуживаете.
Региональный сбой в рабочее время в этом часовом поясе может стоить часов транзакций, регистраций или вызовов API. Пользователи не отправляют электронные письма с надписью «Ваш сайт закрыт» — они просто уходят. Позже вы увидите снижение региональных показателей без четкого объяснения причин.
Корпоративные клиенты имеют соглашения об уровне обслуживания. Когда они не могут получить доступ к вашей платформе, а вы даже не знали о проблеме, это плохой разговор. «Мы не обнаружили сбоя» — это не тот ответ, который вызывает доверие, особенно когда они платят за надежность.
Робот Googlebot сканирует данные из разных мест по всему миру. Если ваша граница CDN в регионе возвращает ошибки или медленные ответы, это влияет на бюджет сканирования, оценки основных веб-показателей и, в конечном итоге, на рейтинг. Вы можете наблюдать падение трафика на определенных рынках без очевидной причины.
Среднее время восстановления (MTTR) начинается с момента обнаружения проблемы. Если региональный сбой Cloudflare затрагивает пользователей в течение 2 часов до того, как вы узнаете об этом из заявки клиента, к вашему эффективному MTTR добавляются 2 часа. Упреждающее обнаружение — единственный способ минимизировать фактическое влияние простоев.
Обнаружение региональных сбоев требует мониторинга, где бы ни находились ваши пользователи, с углубленной диагностикой для определения мест возникновения сбоев.
Каждое место мониторинга затрагивает разные границы CDN и проходит по разным сетевым путям. Чтобы обнаружить региональные сбои, вам нужны узлы в каждом регионе, где у вас есть значимый трафик — Азиатско-Тихоокеанский регион, Европа, Америка, Ближний Восток, Африка. Не только «международный» — конкретно там, где находятся ваши пользователи.
Мониторинг из более чем 50 мест охватывает основные точки доступа CDN и пути интернет-провайдеров.
Когда проверка не проходит из Сингапура, но завершается успешно из других мест, вам нужно знать: это DNS? Конкретный сетевой переход? Край CDN? Traceroute и MTR из пострадавшего местоположения предоставляют доказательства, необходимые для диагностики основной причины и передачи ее в Cloudflare, вашему интернет-провайдеру или хостинг-провайдеру.
Диагностические данные превращают «что-то сломалось» в причину, которую можно предпринять.
400 мс от Токио — это нормально или это ухудшение качества Cloudflare? Исторические данные по каждому местоположению создают базовые показатели, позволяющие обнаруживать медленные сбои — увеличение задержки не вызывает серьезных сбоев, но ухудшает качество обслуживания пользователей. Вы можете обнаружить региональную проблему CDN до того, как она перерастет в полный сбой.
Базовые показатели фиксируют ухудшения до того, как они перерастут в сбои.
Пошаговое руководство по внедрению мониторинга, который выявляет сбои Cloudflare и региональные сбои CDN до того, как ваши пользователи сообщат о них.
Проверьте свою аналитику, чтобы определить, где находятся ваши пользователи. Если 20% трафика поступает из Азиатско-Тихоокеанского региона, вам нужны несколько узлов мониторинга там — Сингапур, Токио, Сидней, Мумбаи. Сопоставьте охват мониторинга с фактическим распределением пользователей.
Настройте HTTP-мониторы для ваших основных URL-адресов, которые проходят через Cloudflare или вашу CDN. Они должны касаться границы CDN, а не напрямую вашего источника. Укажите домен вашего приложения, конечные точки API и все важные общедоступные страницы.
В разных регионах базовые задержки различаются. Настройте разумные пороговые значения: возможно, 500 мс из Европы приемлемо, но 500 мс с востока США (когда вы находитесь там) указывает на проблему на границе CDN. Используйте исторические данные, чтобы установить реалистичные базовые показатели.
Настройте оповещения, которые срабатывают при сбое в определенных регионах, а не только при сбое во всех местоположениях. Сбой только в Сингапуре по-прежнему является проблемой, о которой стоит знать. Направляйте высокоприоритетные оповещения в Slack, PagerDuty или в вашу систему управления инцидентами.
При срабатывании оповещения вам необходимо быстро определить: проблема ли это в Cloudflare? Проблема с сетевым путем? DNS? Включите трассировку маршрутов и MTR по требованию из мест мониторинга, чтобы вы могли немедленно собирать диагностические данные.
Задокументируйте процесс: как проверить региональный сбой Cloudflare. Где проверить API статуса Cloudflare. Как открыть билет с доказательствами. Какие меры по снижению риска вы можете применить (переключение при отказе, обход кэша и т. д.). Наличие этой готовности значительно снижает MTTR.
Установите еженедельное напоминание в календаре для проверки задержки и времени безотказной работы в каждом регионе. Ищите закономерности: действительно ли Азиатско-Тихоокеанский регион постоянно медленнее? Есть ли регулярные всплески в определенном месте? Проактивная проверка выявляет медленное ухудшение прежде, чем оно существенно повлияет на пользователей.
Для сервисов, для которых региональные сбои неприемлемы, рассмотрите стратегию с несколькими CDN, при которой DNS может выполнять аварийное переключение между поставщиками. Это требует независимого мониторинга каждой CDN и наличия автоматизации, которая может переключать трафик. Это сложность, но это устойчивость.
Latency Global был создан для обнаружения именно такого рода проблем — сбоев Cloudflare, региональных сбоев CDN и сетевых проблем, которые не учитываются при мониторинге одного местоположения. Мы отслеживаем данные из более 70 реальных мест на 6 континентах, охватывая все основные регионы CDN PoP.
Каждая проверка включает полную разбивку по времени — разрешение DNS, TCP-соединение, подтверждение TLS, TTFB и общее время ответа. Если что-то происходит в определенном регионе, вы можете запустить трассировку и MTR из этого места, чтобы точно определить, где на сетевом пути возникла проблема. Цена проста: 5 долларов США в месяц за 5 мониторов, включая все местоположения.
Для обнаружения региональных сбоев требуется инфраструктура во многих местах — поэтому большинство инструментов мониторинга либо не предлагают ее, либо взимают корпоративную плату. Мы концентрируемся на том, что важно: охвате и глубине диагностики.
Региональный сбой CDN происходит, когда определенные пограничные серверы или точки присутствия (PoP) в сети CDN выходят из строя или ухудшаются, в то время как другие пограничные серверы остаются работоспособными. Например, у Cloudflare могут возникнуть проблемы с точкой доступа в Сингапуре, в то время как их границы в США и Европе работают нормально. Пользователи, маршрутизирующиеся через затронутый край, сталкиваются с ошибками или низкой производительностью; пользователи в других местах ничего не замечают. Эти отключения невидимы для мониторинга, который проверяет только незатронутые регионы.
На страницах состояния CDN обычно отображается совокупный глобальный статус, а не состояние каждого PoP. Если затронуты 5% ребер, общий статус может оставаться «Рабочий», поскольку 95% инфраструктуры работает. Страницы статуса также имеют задержку обновления — требуется время, чтобы проблемы были обнаружены, проверены и опубликованы. Кроме того, некоторые проблемы не достигают порога публичного раскрытия, но все равно затрагивают ваших пользователей. Независимый мониторинг из нескольких мест — единственный способ получить достоверную информацию о региональной доступности.
Как минимум, вам необходимо отслеживать местоположения в каждом крупном регионе, где у вас есть пользователи: как минимум в Северной Америке, Европе и Азиатско-Тихоокеанском регионе. Для лучшего охвата большинство региональных проблем можно обнаружить в более чем 50 точках, распределенных по всему миру. Ключевым моментом является соответствие охвата мониторинга географии ваших пользователей — если 30% ваших пользователей находятся в Азиатско-Тихоокеанском регионе, вам понадобится несколько узлов там (Сингапур, Токио, Сидней, Мумбаи). Речь идет не о сопоставлении всех PoP CDN, а о охвате основных региональных группировок.
Сначала соберите диагностические данные: трассировку и MTR из затронутого местоположения, коды ответов HTTP и данные времени, а также временные метки. Проверьте страницу статуса Cloudflare и Twitter на предмет подтверждения. Если это явно проблема Cloudflare, откройте заявку в службу поддержки и приведите свои доказательства. Для немедленного устранения последствий рассмотрите возможность: временно обойти Cloudflare для затронутого региона (если ваш источник может это сделать), включить резервную CDN, если у вас есть возможность использования нескольких CDN, или обновить страницу состояния, чтобы подтвердить проблему, пока Cloudflare ее решает. Задокументируйте все для анализа после инцидента.
Да, при наличии соответствующих приборов мониторинга. Полное время проверки HTTP показывает: время разрешения DNS (если DNS дает сбой или работает медленно, вы знаете, что это проблема DNS), время TCP-соединения (проблемы с сетевым путем), время установления связи TLS (проблемы с сертификатом или криптографией) и время TTFB/ответа (проблемы с исходной или пограничной обработкой). Traceroute показывает сетевой путь и места отбрасывания или задержки пакетов. Сравнивая эти данные из затронутого региона с работоспособными регионами, вы можете точно определить, где в цепочке запросов происходит сбой.
Благодаря интервалу проверок в 1 минуту вы можете обнаружить сбой в течение 1–2 минут после его начала. Большинство служб мониторинга подтверждают сбой после 2–3 последовательных сбоев, чтобы избежать оповещений о временных всплесках, поэтому реалистичное время обнаружения составляет 2–5 минут. Сравните это с перебоями в работе, о которых сообщают клиенты, на обнаружение которых через обращения в службу поддержки может уйти несколько часов. Разница в MTTR значительна: 5 минут против 2 часов означают совершенно разное воздействие на пользователя.
Абсолютно. В Akamai, AWS CloudFront, Google Cloud CDN, Azure CDN и любой другой CDN могут возникнуть региональные сбои. Применяются те же принципы: CDN имеют распределенную инфраструктуру, и любая распределенная система может иметь частичные сбои. Подход к обнаружению тот же — отслеживайте из нескольких глобальных местоположений, чтобы выявить проблемы, затрагивающие определенные края или регионы, независимо от того, какой CDN вы используете.
Перестаньте полагаться на страницы статуса CDN и заявки клиентов, чтобы узнать о региональных сбоях. Добавьте конечные точки, выберите места для мониторинга и в течение нескольких минут узнайте, когда Cloudflare, Fastly или любая часть вашего стека выйдет из строя в любом регионе.
5 долларов США в месяц. • Более 70 локаций (скоро еще 40). Без контрактов. • Отмена в любое время.