Phát hiện sớm sự cố ngừng hoạt động CDN trong khu vực

CDN của bạn cho biết "Tất cả các hệ thống đều hoạt động".
Người dùng của bạn ở Châu Á không đồng ý.

Sự cố ngừng hoạt động của Cloudflare, lỗi CDN khu vực và sự xuống cấp ở cấp độ biên không phải lúc nào cũng hiển thị trên các trang trạng thái. Khi Tokyo POP của CDN của bạn ngừng hoạt động nhưng trạng thái toàn cầu của chúng hiển thị màu xanh lục, việc giám sát của bạn từ Virginia sẽ không phát hiện được.

Việc phát hiện mất điện trong khu vực yêu cầu giám sát từ vị trí thực sự của người dùng — không chỉ vị trí cơ sở hạ tầng của bạn.

Thông báo Slack lúc 3 giờ sáng thay đổi cách bạn nghĩ về tình trạng ngừng hoạt động

Bây giờ là 3 giờ sáng. Kỹ sư trực của bạn nhận được thông báo về sự thành công của khách hàng: "Ba khách hàng doanh nghiệp ở Singapore cho biết họ không thể truy cập ứng dụng. Đã bắt đầu khoảng hai giờ trước."

Bạn kiểm tra bảng điều khiển giám sát của mình - mọi thứ đều có màu xanh lá cây. Trang trạng thái của Cloudflare — đang hoạt động. AWS — không có sự cố nào. APM của bạn - những biểu đồ nhỏ vui vẻ. Vì vậy, bạn yêu cầu khách hàng thử lại, xóa bộ nhớ đệm, kiểm tra mạng của họ.

Nhưng nó cứ xảy ra. Nhiều vé hơn từ cùng một khu vực. Cuối cùng, ai đó chạy traceroute từ VPS Singapore và phát hiện ra: lưu lượng truy cập đang chạm tới biên Cloudflare và trả về 502 giây. CDN sự cố ngừng hoạt động trong khu vực ảnh hưởng đến một PoP — và không có gì trong ngăn xếp giám sát của bạn đang kiểm tra từ khu vực đó.

Hai giờ ngừng hoạt động. Đối với một địa lý cụ thể. Không có cảnh báo. Đó chính là điểm mù mà trang này hướng tới.

Cho dù đó là sự cố ngừng hoạt động của Cloudflare, lỗi Fastly edge hay sự xuống cấp của khu vực Akamai — việc phát hiện những vấn đề này đòi hỏi phải có sự giám sát từ các khu vực bị ảnh hưởng. Đó là cách bạn nắm bắt được vấn đề trước khi chúng trở thành khiếu nại của khách hàng.

Tại sao giám sát tiêu chuẩn sẽ không phát hiện được sự cố mất điện trong khu vực

Hầu hết việc giám sát thời gian hoạt động được thiết kế cho một vấn đề đơn giản hơn: "Máy chủ có phản hồi không?" Đối với các trang web được tăng tốc CDN phục vụ người dùng toàn cầu, đó không còn là câu hỏi phù hợp nữa.

Cách Latency Global xử lý việc phát hiện mất điện khu vực

Latency Global được xây dựng để phát hiện chính xác loại vấn đề này — sự cố ngừng hoạt động của Cloudflare, lỗi CDN khu vực và các sự cố mạng mà việc giám sát một vị trí đã bỏ sót. Chúng tôi giám sát từ hơn 70 địa điểm thực trên 6 châu lục, bao gồm tất cả các khu vực CDN PoP chính.

Mọi kiểm tra đều bao gồm phân tích đầy đủ về thời gian - độ phân giải DNS, kết nối TCP, bắt tay TLS, TTFB và tổng thời gian phản hồi. Khi có sự cố xảy ra ở một khu vực cụ thể, bạn có thể chạy traceroute và MTR từ vị trí đó để xác định chính xác vị trí xảy ra sự cố trong đường dẫn mạng. Giá cả rất đơn giản: $5/tháng cho 5 màn hình, bao gồm tất cả các vị trí.

Hơn 70 địa điểm giám sát toàn cầu (sắp có thêm 40)

Khoảng thời gian kiểm tra 1 phút

Phân tích độ trễ đầy đủ cho mỗi lần kiểm tra

Traceroute & MTR từ bất kỳ vị trí nào

Cảnh báo Slack, email và webhook

Bắt đầu giám sát trên toàn cầu trong vòng chưa đầy 2 phút

Hãy ngừng dựa vào các trang trạng thái CDN và phiếu khách hàng để tìm hiểu về tình trạng ngừng hoạt động trong khu vực. Thêm điểm cuối của bạn, chọn vị trí giám sát và biết trong vòng vài phút khi Cloudflare, Fastly hoặc bất kỳ phần nào trong ngăn xếp của bạn bị lỗi ở bất kỳ khu vực nào.

$5/tháng • Hơn 70 địa điểm (+40 địa điểm sớm hơn) • Không có hợp đồng • Hủy bất cứ lúc nào

CDN của bạn cho biết "Tất cả các hệ thống đều hoạt động". Người dùng của bạn ở Châu Á không đồng ý.

Thông báo Slack lúc 3 giờ sáng thay đổi cách bạn nghĩ về tình trạng ngừng hoạt động

Tại sao lại xảy ra tình trạng mất điện trong khu vực — và tại sao hầu hết các hệ thống giám sát đều không thể nhìn thấy chúng

Lỗi máy chủ CDN Edge

Lỗi DNS khu vực

Các vấn đề về định tuyến và ngang hàng của BGP

ISP & Kết nối chặng cuối

Tại sao giám sát tiêu chuẩn sẽ không phát hiện được sự cố mất điện trong khu vực

Kiểm tra từ 1-3 địa điểm

Kiểm tra tổng hợp từ đám mây đến đám mây

Tin cậy các trang trạng thái CDN

Không có khả năng hiển thị lớp mạng

Khoảng cách phát hiện ngừng hoạt động của Cloudflare

Điều gì xảy ra khi mất điện trong khu vực mà không bị phát hiện

Mất doanh thu âm thầm

Sự cố do khách hàng báo cáo

Thất bại của SEO và Googlebot

Vấn đề MTTR

Cách phát hiện chính xác sự cố ngừng hoạt động của Cloudflare và lỗi CDN khu vực

Giám sát từ hơn 50 địa điểm trên toàn cầu

Phân tích theo dõi và độ trễ

So sánh lịch sử theo khu vực

Các khả năng cần thiết để phát hiện sự cố mất điện trong khu vực

Danh sách kiểm tra thực tế: thiết lập tính năng phát hiện mất điện trong khu vực

Ánh xạ địa lý người dùng của bạn tới các vị trí giám sát

Giám sát các điểm cuối phía trước CDN của bạn

Đặt ngưỡng độ trễ cho mỗi khu vực

Định cấu hình cảnh báo cho các lỗi khu vực

Kích hoạt traceroute để chẩn đoán sự cố

Tạo sổ tay chạy để nâng cấp CDN

Xem xét xu hướng khu vực hàng tuần

Xem xét đa CDN cho các dịch vụ quan trọng

Cách Latency Global xử lý việc phát hiện mất điện khu vực

Câu hỏi thường gặp

Sự cố ngừng hoạt động CDN khu vực là gì?

Tại sao trang trạng thái của Cloudflare không hiển thị tình trạng ngừng hoạt động trong khu vực?

Tôi cần bao nhiêu vị trí giám sát để phát hiện sự cố ngừng hoạt động của Cloudflare?

Tôi nên làm gì khi phát hiện Cloudflare ngừng hoạt động trong khu vực?

Tôi có thể phát hiện xem sự cố là do DNS, CDN hay nguồn gốc không?

Sự cố mất điện trong khu vực có thể được phát hiện nhanh như thế nào?

Điều này có áp dụng cho các CDN khác ngoài Cloudflare không?

Bắt đầu giám sát trên toàn cầu trong vòng chưa đầy 2 phút

CDN của bạn cho biết "Tất cả các hệ thống đều hoạt động".
Người dùng của bạn ở Châu Á không đồng ý.