Мониторинг из одного места оставляет вас слепым

Ваш сайт работает на вас.
Работает ли это для ваших пользователей в Токио?

Когда вы контролируете свой веб-сайт из одного места, вы проверяете ваше соединение с вашим сервером. Это ничего не говорит вам о том, что испытывают пользователи в Сингапуре, Сан-Паулу или Стокгольме. Отслеживать веб-сайт из нескольких мест — единственный способ увидеть полную картину.

Если для вас это хорошо, а для них плохо, действительно ли это хорошо?

Распространенная проблема, которая застает команды врасплох.

Вы создали продукт SaaS для клиентов в 15 странах. Бизнес растет. Ваш мониторинг работоспособности показывает 99,9%. Все выглядит нормально.

Затем клиент из Мумбаи пишет по электронной почте: "Я не могу получить доступ к своему аккаунту уже два дня". Потенциальный клиент из Берлина пишет в Твиттере: "Попробовал вашу демо-версию, но сайт так и не загрузился". Ваша команда в Сан-Франциско проверяет сайт — работает отлично.

Вы копаетесь в своем мониторинге. Все зеленое. Никаких оповещений. Проверяешь логи сервера — ошибок нет. На вашей панели управления CDN указано, что все ребра работают. Никаких происшествий, требующих расследования, нет, потому что, согласно вашим инструментам, ничего не произошло.

Но что-то произошло. Ваш веб-сайт был недоступен в определенных регионах, и вы не могли его увидеть.

Вот почему вам необходимо отслеживать свой сайт из нескольких мест, а не из одного. Интернет выглядит по-разному в зависимости от того, где вы находитесь.

Почему доступность зависит от местоположения

Интернет не является монолитом. Это сеть тысяч сетей, и путь от устройства пользователя к вашему серверу меняется в зависимости от того, где они находятся.

Разрешение DNS различается в зависимости от региона

DNS распределенный. Когда пользователь из Джакарты запрашивает ваш домен, он не обращается к тому же DNS-серверу, что и пользователь из Чикаго. Если узел Anycast вашего DNS-провайдера в Юго-Восточной Азии неправильно настроен или отключен, пользователи в этом регионе получают ошибки NXDOMAIN, в то время как остальной мир работает нормально.

Реальный сценарий. PoP DNS-провайдера в Сингапуре обслуживает устаревшие записи в течение 4 часов. Пользователи из Юго-Восточной Азии не могут получить доступ к вашему сайту. Ваш мониторинг в Вирджинии не видит ничего плохого.

Аномалии маршрутизации BGP

BGP определяет, как пакеты перемещаются через Интернет. Неправильно настроенное объявление маршрута может направить трафик в абсурдные объезды или в черную дыру. Эти проблемы маршрутизации часто зависят от региона. Трафик из Бразилии может работать нормально, в то время как трафик из Аргентины будет отключен.

Реальный сценарий. Интернет-провайдер в Латинской Америке объявляет о плохом маршруте. Ваш сайт становится недоступным для 3 миллионов пользователей. Мониторинг в США показывает 100 % время безотказной работы.

Граничные узлы CDN выходят из строя независимо друг от друга

У вашей CDN 200 периферийных местоположений. Каждый из них представляет собой независимую точку отказа. Край в Сиднее может обслуживать поврежденный контент. У периферии во Франкфурте может быть сертификат с истекшим сроком действия. На странице состояния CDN указано «Все системы в рабочем состоянии», потому что их общее состояние в порядке — ваши пользователи в этих регионах с этим не согласны.

Реальный сценарий: Edge CDN в Мумбаи возвращает 503 в течение 6 часов. Остальные края работают отлично. Если вы наблюдаете только из США, вы ничего не видите.

Проблемы с подключением на уровне интернет-провайдера

У некоторых интернет-провайдеров плохой пиринг с определенными хостинг-провайдерами или диапазонами IP-адресов. Перегруженная точка пиринга может превратить быстрый веб-сайт в непригодный для использования миллионами пользователей этого интернет-провайдера, в то время как у пользователей других сетей в том же городе проблем не возникнет.

Реальный сценарий. Крупный индонезийский интернет-провайдер ограничивает трафик в диапазонах IP-адресов AWS в часы пик. Пользователи испытывают 15-секундную загрузку страниц. Пользователи других интернет-провайдеров загружаются за 800 мс.

Общая мысль: Каждая из этих ошибок зависит от местоположения. Они не влияют на ваш исходный сервер. Они не отображаются в вашем APM. Они невидимы с того места, где вы сидите, — если только вы не следите за своим веб-сайтом активно из разных мест по всему миру.

Почему большинство инструментов мониторинга не учитывают региональные проблемы

Дело не в том, что ваш текущий мониторинг сломан. Дело в том, что он был разработан для более простой проблемы.

Синтетические чеки из нескольких регионов

Большинство служб мониторинга предлагают 5–15 локаций, в основном в США и Западной Европе. Если ваши пользователи охватывают Латинскую Америку, Юго-Восточную Азию, Африку или Восточную Европу, ваш мониторинг имеет значительные «слепые зоны».

Тестирование «облако-облако» не является репрезентативным

Проверки от AWS us-east-1 до вашего сервера AWS us-west-2 тестируют пиринг облачных поставщиков, а не реальные сетевые пути. Облачные соединения быстрые и надежные. Соединения ваших пользователей с интернет-провайдерами — нет.

Нет диагностического контекста при возникновении сбоев

Знать, что «сайт не работает в Сингапуре», бесполезно. Это был DNS? Тайм-аут TCP-квитирования? Сбой TLS? Скачок TTFB? Без анализа задержки и данных трассировки маршрута вы не сможете диагностировать основную причину.

Глобальный мониторинг стоит дорого

Распределенный мониторинг корпоративного уровня обычно стоит 200–500 долларов в месяц. Для стартапов и малого бизнеса это значительные расходы. Команды идут на компромисс, выбирая более дешевые инструменты, имеющие меньшее количество мест, и надеются на лучшее.

Пробел в мониторинге

Типичные места мониторинга 5–15
Страны со значительным веб-трафиком 100+
Уникальные сетевые пути по всему миру Десятки тысяч
Типичное покрытие видимости < 10%

Когда вы контролируете веб-сайт из нескольких мест — 50, 70 или более — вы значительно уменьшаете свои «слепые зоны». Вы переходите от надежды, что проблем не существует в непокрытых регионах, к фактическому знанию.

Что вы теряете, если не осуществляете мониторинг из нескольких мест

Проблемы региональной доступности влекут за собой реальные издержки — даже если ваша информационная панель отображается зеленым цветом.

Невидимая потеря пользователя

Пользователи, которые не могут загрузить ваш сайт, не пишут заявки в службу поддержки — они находят альтернативу. Региональный сбой, продолжающийся несколько часов, будет стоить вам посетителей, которые никогда не появляются в вашей аналитике, потому что они не могут загрузить ваш JavaScript. Вы никогда не узнаете, что они существовали.

Неудачные регистрации и покупки

Срок действия вашей страницы регистрации истекает в Бразилии. Ваша проверка не удалась в Индии. Это не «пограничные случаи» — в Бразилии и Индии огромное количество интернет-пользователей. Если вы не контролируете свой веб-сайт из нескольких мест в этих регионах, вы теряете доход, который даже не можете оценить количественно.

Региональный SEO-ущерб

Google сканирует данные из разных географических мест. Если робот Googlebot не может получить доступ к вашему сайту из определенных регионов, эти страницы будут деиндексированы. Показатели Core Web Vitals снижаются в регионах с высокой задержкой. Рейтинги падают — и вы не поймете почему, пока органический трафик не упадет.

Урон репутации накапливается

«Их сервис никогда не работает отсюда». Вот что говорят на Reddit, Twitter и отраслевых форумах. Как только ваш продукт приобретет репутацию ненадежного в определенных регионах, изменение этого мнения займет месяцы — даже после того, как вы устраните основные проблемы.

ПРАВИЛЬНЫЙ ПОДХОД

Как правильно отслеживать ваш сайт из нескольких мест

Эффективный мониторинг в нескольких местах требует трех столпов: охват, глубина диагностики и осведомленность о тенденциях.

1

Мониторинг из более чем 50 точек мира

Покройте все основные континенты. Включите места, где на самом деле находятся ваши пользователи, а не только города первого уровня. Токио, Сингапур, Сидней, Мумбаи, Франкфурт, Сан-Паулу, Йоханнесбург. Каждое дополнительное место уменьшает охват слепых зон.

Больше локаций = меньше сюрпризов от гневных писем клиентов.

2

Получите подробную информацию о задержке

Измеряйте каждый этап: разрешение DNS, подтверждение TCP, согласование TLS, время получения первого байта, передачу контента. Когда что-то работает медленно или дает сбой, вам нужно знать, какая фаза виновата — в противном случае вы будете отлаживать вслепую.

«Это медленно» не имеет смысла. «450 мс DNS из Токио».

3

Используйте трассировку и историческое сравнение

Traceroute показывает, какой именно сетевой переход увеличивает задержку или отбрасывает пакеты. Исторические данные позволяют сравнивать текущую производительность с базовыми показателями. Вместе они сообщат вам, если что-то сломалось или всегда было неоптимально.

Эскалация на основе фактических данных обеспечивает более быструю реакцию поставщиков услуг.

На что обратить внимание при мониторинге нескольких локаций

Более 50 распределенных локаций
Время разрешения DNS
Время установления связи TCP/TLS
Время до первого байта (TTFB)
Диагностика Traceroute и MTR
Анализ исторических тенденций
Оповещение для каждого местоположения
Мониторинг SSL-сертификатов

Практический контрольный список: настройка мониторинга из нескольких мест

Независимо от того, используете ли вы управляемый сервис или создаете свой собственный — это основы.

1

Определите, где находятся ваши пользователи

Проверьте Google Analytics, Cloudflare Analytics или журналы доступа к серверу, чтобы узнать, какие страны и города привлекают трафик. Места мониторинга должны соответствовать географии ваших пользователей — мониторинг из Франкфурта не поможет, если ваши пользователи находятся в Маниле.

2

Выберите сервис с более чем 50 локациями мониторинга

Менее 50 локаций оставляют значительные пробелы. Обеспечьте покрытие в регионах с недостаточным уровнем обслуживания: Юго-Восточная Азия, Латинская Америка, Африка, Восточная Европа и Океания. Часто именно здесь проблемы скрываются незамеченными.

3

Отслеживайте критические пути, а не только домашнюю страницу

Отслеживайте свою страницу регистрации, процесс оформления заказа, конечную точку входа и ключевые маршруты API. Работающая домашняя страница ничего не значит, если ваши пользователи не могут совершить покупку или войти в свою учетную запись.

4

Включить анализ задержки и диагностику сети

Настройте время DNS, TCP, TLS и TTFB. Настройте трассировку и MTR на случай, если вам понадобится диагностировать проблемы маршрутизации. Без этих данных вы будете знать, что что-то не так, но не будете знать, что исправить.

5

Настройка оповещений для конкретного местоположения

Не просто предупреждайте о глобальных сбоях в работе. Получайте уведомления, когда в определенном регионе превышаются пороговые значения задержки или снижается доступность, даже если в остальном мире все в порядке. Региональная деградация часто является предшественником более серьезных проблем.

6

Устанавливайте базовые показатели и отслеживайте тенденции

«250 мс из Сингапура — это хорошо или плохо?» Вы знаете, только если у вас есть исторический контекст. Установите базовый уровень производительности для каждого региона. Следите за постепенной деградацией: проблемы, которые развиваются медленно, легко не заметить, пока они не перерастут в сбои.

7

Анализируйте производительность еженедельно

Каждую неделю уделяйте 10 минут обзору региональных показателей. Ищите регионы с постоянно более высокой задержкой или низкой доступностью. Эти шаблоны выявляют проблемы, которые могут пропустить оповещения в реальном времени.

8

Обостряйте ситуацию с помощью данных, а не анекдотов

Когда вы обращаетесь к своему CDN, хостинг-провайдеру или службе DNS по поводу региональной проблемы, принесите данные трассировки, временные разбивки и исторические диаграммы. «Пользователи в Бразилии жалуются» игнорируется. «Вот 7 дней трассировки, показывающей 400 мс на границе Сан-Паулу», — привлекает внимание.

ПРИМЕР

Как Latency Global подходит к мониторингу нескольких местоположений

Latency Global был создан специально для мониторинга веб-сайтов из разных мест по всему миру. Мы проводим проверки из более 70 местоположений на 6 континентах, охватывая регионы, которые игнорирует большинство служб мониторинга: Юго-Восточную Азию, Латинскую Америку, Африку, Ближний Восток и Восточную Европу.

Каждая проверка включает полную разбивку по задержке: DNS, TCP, TLS, TTFB. Вы можете запускать трассировку и MTR по требованию из любого места для диагностики проблем маршрутизации. Исторические данные позволяют сравнивать текущую производительность с базовыми показателями. И это стоит 5 долларов США в месяц, а не 200–500 долларов США, которые обычно стоит глобальный корпоративный мониторинг.

Более 70 точек наблюдения на всех континентах (скоро еще 40)
Полная разбивка задержки для каждой проверки (DNS, TCP, TLS, TTFB)
Трассировка маршрута и MTR по требованию из любого места
Сохранение исторических данных для сравнения базовых показателей
Оповещения по электронной почте, Slack, веб-перехватчикам — при необходимости для каждого региона.
Начиная с
5 долларов
помесячно
5 мониторов в комплекте
Все более 70 локаций по всему миру (скоро +40)
HTTP, Ping, DNS, порт, SSL, Traceroute, MTR
60-секундные интервалы проверки
Нет договора, отмените в любое время

Глобальная инфраструктура мониторинга обходится дорого в эксплуатации. Мы сохраняем доступные цены, обслуживая платящих клиентов, которые ценят услугу, а не поддерживая уровни бесплатного пользования.

Часто задаваемые вопросы

Почему недостаточно мониторинга из одного места?

Мониторинг в одном месте проверяет подключение из одной точки Интернета к вашему серверу. Это ничего не говорит об опыте пользователей в других регионах. DNS может разрешаться по-разному в зависимости от географии. Пути маршрутизации различаются в зависимости от местоположения. Края CDN выходят из строя независимо друг от друга. У интернет-провайдеров разные механизмы пиринга. Единственный способ узнать, работает ли ваш сайт для пользователей в Сингапуре, Сан-Паулу или Стокгольме, — это протестировать его из этих мест.

Сколько локаций мне действительно нужно?

Это зависит от распределения пользователей, но чем больше, тем лучше. Если ваши пользователи сконцентрированы в нескольких странах, опишите их конкретно. Если у вас глобальная аудитория, стремитесь к более чем 50 локациям, охватывающим все основные континенты. Каждый непокрытый регион — это потенциальное «слепое пятно», где проблемы могут скрываться незамеченными.

В чем разница между мониторингом облачных регионов и мониторингом реальной сети?

Поставщики облачных услуг (AWS, GCP, Azure) имеют отличное соединение между своими регионами. Проверка с AWS ap-southeast-1 на ваш сервер AWS us-west-2 часто проходит через магистральные сети частного облака с постоянной низкой задержкой. Ваши пользователи подключаются не так. Реальные пользователи используют общедоступную интернет-инфраструктуру со всеми ее изменениями — пиринг интернет-провайдеров, трансокеанские кабели, особенности региональной маршрутизации. Мониторинг с необлачных точек зрения дает более реалистичную картину.

Могу ли я просто запустить трассировку вручную при возникновении проблем?

Проблема в том, чтобы знать, когда его запустить. К тому времени, когда пользователь пожалуется, проблема может длиться несколько часов или уже быть решена. Непрерывный мониторинг выявляет проблемы по мере их возникновения. А если вам нужно провести отладку, исторические данные трассировки покажут вам, как выглядел сетевой путь во время инцидента, а не только после его завершения.

Как мне убедить свою команду, что нам нужен мониторинг из нескольких мест?

Обратите внимание на свою аналитику: какой процент пользователей приходит из-за пределов зоны вашего мониторинга? Рассчитайте доходы от этих регионов. Затем подумайте: если ваш сайт не будет работать в этих регионах в течение 4 часов, а вы не будете знать, сколько это будет стоить? Для большинства предприятий 5 долларов в месяц — это ошибка округления по сравнению с потенциальной потерей дохода из-за одного необнаруженного регионального отключения электроэнергии.

Какие типы мониторинга следует использовать помимо проверок HTTP?

Мониторинг DNS выявляет проблемы с преобразователем. Мониторинг SSL предупреждает вас до истечения срока действия сертификатов на региональном уровне. Мониторинг портов проверяет службы, отличные от HTTP. Мониторинг Ping измеряет задержку сети без накладных расходов HTTP. Traceroute и MTR помогают диагностировать проблемы маршрутизации при их возникновении. Комплексная настройка использует несколько типов мониторов для разных углов обзора.

Начните мониторинг по всему миру менее чем за 2 минуты

Перестаньте надеяться, что ваш сайт работает везде. Начните знать. Добавьте свои URL-адреса, выберите места для мониторинга и получите представление о том, что на самом деле испытывают пользователи по всему миру, прежде чем они напишут вам об этом по электронной почте.

5 долларов США в месяц • Никаких контрактов • Отмена в любое время