您的状态页面显示一切正常。您的 APM 显示绿色。与此同时,新加坡的一位客户无法登录。巴西的一位潜在客户放弃了注册。德国的一项企业交易因“演示不断超时”而失败。
SaaS 的全球正常运行时间监控不是可选的 - 这是您了解客户实际体验的方式。
您已经构建了一个可靠的产品。基础设施位于 AWS 或 GCP 上。您正在使用 Cloudflare 或 Fastly。您有基本的正常运行时间监控 - 可能每隔几分钟从一两个位置进行检查。
然后您开始从特定区域获取支持票证。 “无法访问该应用程序。” “登录一直失败。” “页面无法加载。”你检查你的仪表板——一切看起来都很好。你要求他们再试一次——有时有效,有时无效。
您将其视为用户错误、网络问题或暂时性问题。但门票源源不断地来。您意识到:您无法验证新加坡、圣保罗或约翰内斯堡的用户实际体验如何。
你的监控在欺骗你——不是故意的,而是由于疏忽。它从一个地方进行检查并假设它代表整个世界。
这就是SaaS 的全球正常运行时间监控变得至关重要的地方。不是作为一个可有可无的东西,而是作为了解您的产品是否真正可供您想要接触的客户使用的唯一方法。
互联网并不统一。从东京到美国东部始发地的请求与从伦敦发出的请求所经过的基础设施完全不同。
DNS 不是即时的或通用的。如果您的 DNS 提供商距离用户最近的任播节点过载、配置错误或无法访问,则该用户无法解析您的域 - 即使您的服务器运行良好。不同的 DNS 解析器可能返回不同的结果,有些解析器可能会缓存陈旧或不正确的记录。
真实场景:一家主要云 DNS 提供商发生了 4 小时的中断,仅影响了亚太地区的域名服务器。使用该提供商的 SaaS 产品在美国的监控中显示出 100% 的正常运行时间,同时对 20 亿潜在用户来说完全离线。
BGP 路由可能会在没有警告的情况下发生更改、中断或变得不理想。路由泄漏、配置错误的 AS 路径或传输提供商中断可能会导致整个国家/地区无法访问您的服务器,而其他国家/地区却可以完全访问您的服务器。这些问题经常发生,并且可能持续数小时。
真实场景:巴西的一家主要 ISP 错误配置了路由,导致流向美国 SaaS 的所有流量在到达美国之前先经过欧洲。延迟从 120 毫秒跃升至 800 毫秒——可以正常运行,但对于实时功能来说慢得无法使用。
您的 CDN 有数百个边缘站点,但并非所有站点始终都处于健康状态。雅加达的优势可能会下降,而新加坡的优势则不错。 CDN 状态页面可能无法反映区域降级,并且路由到有问题的边缘的用户会遇到故障或极度缓慢。
真实场景:由于后端配置问题,圣保罗的 CDN 边缘在 6 小时内出现 502 错误。 CDN 的全局状态显示“正在运行”,因为 95% 的边缘都很好。巴西用户认为 SaaS 完全崩溃了。
主要 ISP 的对等安排会影响流量的流动方式。如果区域 ISP 和您的云提供商之间的对等点拥塞或出现数据包丢失,则该 ISP 上的用户对您的 SaaS 的访问性能将下降 - 即使同一城市的不同 ISP 上的用户没有问题。
真实场景:一家主要的印度 ISP 与一家美国云提供商发生了持续 3 周的对等纠纷。该 ISP 上的用户经历了 5 秒以上的加载时间。这家 SaaS 公司在意识到问题之前就已经失去了大量的印度市场份额。
核心问题:所有这些失败都特定于位置。您的基础设施正在运行。你的代码没问题。但是,在特定区域的服务器和用户之间的某个地方,某些东西出现了问题 - 检测它的唯一方法是检查这些用户的实际位置。
大多数正常运行时间监控工具都是为一个更简单的时代而构建的——“服务器是否响应?”这是一个足够的问题。对于拥有全球用户的 SaaS 来说,这已经不够了。
许多 SaaS 监控设置从 1-5 个位置进行检查,通常集中在美国和欧洲。如果您的用户位于亚太地区、拉丁美洲、中东或非洲,您对他们的体验的可见性为零。区域性停电根本不会发生。
从 AWS 区域到 AWS 托管的基础设施运行检查可以受益于优化的云主干连接。住宅或企业网络上的真实用户会经历完全不同的路径,并具有不同的故障模式。
您的 SaaS 在技术上可能会响应,但需要 15 秒才能加载。简单的 HTTP 200 检查显示“正常”,但对于用户来说,实际上是“正常”。如果没有每个区域的延迟阈值,您就会错过让用户感到沮丧的缓慢故障。
当发生区域性中断时,您需要知道:是DNS吗?是网络路径吗?是不是TLS握手超时了?如果没有跟踪路由、MTR 和延迟细分,您就无法诊断根本原因或向托管提供商提供证据。
当您仅从少数位置进行监控时,您只能看到用户体验的一小部分。其余部分是盲点,在不被发现的情况下发生中断。
您的 SaaS 在某个地区无法访问的每一分钟,您都会失去用户、收入和声誉 - 通常是在不知情的情况下。
无法访问您的 SaaS 的用户并不总是抱怨 - 他们会离开。如果试用用户在第一次会话期间遇到中断,他们就会消失。如果付费客户反复遇到问题,他们就会开始寻找替代方案。您会看到指标出现流失,但不知道这是由区域可用性问题引起的。
您的营销吸引了来自世界各地的流量。如果特定地区的注册流程中断或极其缓慢,流量就会反弹。您已支付收购费用,但由于您不知道存在的区域问题,转换失败。 CAC 上升; LTV 下降。
Google 从全球多个位置进行抓取。如果 Googlebot 在某些地区遇到响应缓慢或失败的情况,则会影响 Core Web Vitals 分数、抓取频率并最终影响这些市场的排名。您的自然流量在特定国家/地区下降,但您不知道原因。
消息传开。 “SaaS 在亚太地区并不可靠。” “我们尝试过,但该应用程序从未从我们的柏林办公室正确加载。” G2 评论、Twitter 帖子和 Slack 社区讨论以难以逆转的方式塑造了人们的看法。当您了解该问题时,损害已经造成。
有效的全球正常运行时间监控需要地理多样性、诊断深度和正确的警报阈值。
覆盖范围不仅仅与数量有关,还与您的用户地理位置相匹配。如果您在东南亚有用户,则需要新加坡、雅加达、孟买、东京、悉尼的节点。如果您的目标是拉丁美洲,则需要圣保罗、布宜诺斯艾利斯、墨西哥城。每个位置都会显示不同的网络状况。
将监控位置映射到付费客户所在的位置。
当发生中断时,您需要知道网络路径中的哪个位置发生了故障。是DNS解析吗?特定的网络跃点?您的 CDN 优势?来自受影响地区的 Traceroute 和 MTR 数据为您提供诊断根本原因并有效上报给提供商的证据。
诊断数据将“问题出在某个地方”转变为“这就是原因”。
来自东京的 300 毫秒响应时间是正常还是退化?没有历史数据,你无法判断。持续监控为每个位置建立基线,因此您可以对与正常情况的偏差发出警报 - 在出现中断之前捕获缓慢的性能下降,并区分真正的问题和一次性的问题。
基线可以让您警惕“比平时更糟糕”,而不仅仅是“下降”。
实施实际捕获区域中断的监控的分步指南。
查看分析数据,根据活跃用户和收入确定前 20 个国家/地区。检查注册来自哪里、试用转化来自哪里以及扩展收入来自哪里。这些是您必须监控的区域。
并非每个端点都需要全局监控。重点关注:主应用程序 URL、登录/身份验证端点、注册流程、客户使用的 API 端点以及对 SEO 或转换至关重要的任何面向公众的页面。
选择具有广泛地理覆盖范围的监控服务——各大洲至少 50 个地点。确保覆盖范围符合您的用户地理位置。将关键端点的检查间隔设置为 1 分钟;二级页面 5 分钟。
不要只对故障发出警报——当响应时间超过可接受的阈值时发出警报。对于 SaaS,请考虑:登录页面 <1 秒,仪表板加载 <2 秒,API 调用 <500 毫秒。对于遥远的位置,区域阈值可能需要稍高一些。
配置警报以在特定区域出现故障或性能下降时触发。将高优先级区域警报发送给待命工程师。与 Slack、PagerDuty 或您现有的事件管理工作流程集成。
确保您可以根据需要从任何监控位置运行跟踪路由和 MTR。当警报触发时,您需要立即获得诊断数据来确定问题是 DNS、网络路由、CDN 还是源头。
设置定期日历提醒以查看区域正常运行时间和延迟趋势。寻找未触发警报的缓慢降级、延迟持续较高的区域以及与用户投诉或流失数据相关的模式。
记录检测到区域中断时应采取的措施:如何验证问题、在 CDN 或托管提供商中与谁联系、要收集哪些诊断数据以及如何向受影响的客户传达状态。
Latency Global 专为 SaaS 产品所需的全球可见性而构建。我们从进行监控 - 覆盖您的用户可能所在的每个主要区域。
每次检查都包括完整的时间细分(DNS、TCP、TLS、TTFB),并且您可以在调查问题时从任何位置运行跟踪路由和 MTR。历史数据显示每个区域的趋势,因此您可以在出现中断之前发现性能下降情况。定价很简单:5 美元/月,可访问所有位置的 5 台显示器。
全球监控是基础设施密集型的 — 这就是大多数工具每月收费 50 至 500 美元的原因。我们通过关注重要的事情:地理覆盖范围和诊断深度,让早期阶段的 SaaS 能够轻松访问它。
SaaS 产品通常为全球用户提供服务,而不仅仅是某一地区的用户。与传统的本地软件不同,您的 SaaS 需要可以从客户所在的任何地方进行访问。由 DNS 问题、BGP 路由问题、CDN 故障或 ISP 对等问题引起的区域中断可能会使您的产品无法访问整个市场,同时从您的监控位置看来完全可以运行。全球正常运行时间监控是了解国际用户实际体验的唯一方法。
这取决于您的用户地理位置,但 50 多个位置是全面覆盖的良好基准。关键是确保您在拥有大量用户或收入的每个区域进行监控。如果您的 ARR 的 15% 来自亚太地区,则您需要跨亚太地区的多个节点。如果您要扩展到拉丁美洲,则需要在巴西、阿根廷、墨西哥设立节点。将监控覆盖范围与业务重要性相匹配,而不仅仅是用户数量。
CDN 和云提供商仪表板显示其内部视图 - 这通常是有限的。它们可能会显示“所有系统都在运行”,而特定区域的用户会因对等互连问题、BGP 路由问题或未登记为完全中断的边缘级降级而遇到故障。来自基础设施外部的独立监控为您提供有关最终用户实际体验的基本事实,这通常与提供商仪表板显示的内容不同。
两者均按业务影响优先。首先:(1) 主应用程序 URL/仪表板,(2) 登录/身份验证端点,(3) 注册流程,(4) 客户使用的 API 端点,(5) 营销网站主页。对于 SaaS,身份验证流程尤其重要 - 如果用户无法从某个区域登录,他们就无法使用您的产品。如果您有集成平台或基于您的 API 构建的客户,那么 API 端点很重要。
如果检查间隔为 1 分钟,您可以在 1-2 分钟内检测到中断情况。一旦确认故障,应立即发出警报(通常在连续 2-3 次故障后,以避免对瞬态信号发出警报)。对于主要市场的关键端点,您希望在中断开始后 5 分钟内了解情况。检测速度越快,诊断和缓解的速度就越快,或者至少向受影响的客户传达状态。
即使问题发生在上游,监控也会为您提供:(1) 问题存在的证据(您无法修复无法证明的问题),(2) 诊断数据(traceroute、MTR),用于识别导致问题的特定提供商或跃点,(3) 文档,用于有效升级到您的 CDN 或托管提供商,以及 (4) 数据,用于通知您是否需要添加冗余、切换提供商或在受影响区域添加边缘位置。了解问题是缓解问题的第一步。
不要再怀疑您的 SaaS 是否真的可以在新加坡、圣保罗或悉尼使用。添加您的端点,选择您的监控位置,并在全球用户告诉您之前了解他们的实际体验。
5 美元/月 • 70 多个地点(很快还会有 40 个以上) • 无合同 • 随时取消