ตรวจหาการหยุดทำงานของ CDN ในระดับภูมิภาคตั้งแต่เนิ่นๆ

ตี 3 วิศวกรที่พร้อมโทรติดต่อของคุณได้รับแจ้งจากความสำเร็จของลูกค้า: "ลูกค้าองค์กรสามรายในสิงคโปร์รายงานว่าพวกเขาไม่สามารถเข้าถึงแอปได้ เริ่มต้นเมื่อประมาณสองชั่วโมงที่แล้ว"

คุณตรวจสอบแดชบอร์ดการตรวจสอบของคุณ — ทุกอย่างเป็นสีเขียว หน้าสถานะของ Cloudflare — ใช้งานได้แล้ว AWS — ไม่มีเหตุการณ์ใดๆ APM ของคุณ — กราฟเล็กๆ น้อยๆ ที่มีความสุข ดังนั้นคุณจึงขอให้ลูกค้าลองอีกครั้ง ล้างแคช ตรวจสอบเครือข่ายของพวกเขา

แต่มันก็ยังคงเกิดขึ้น ตั๋วเพิ่มเติมจากภูมิภาคเดียวกัน ในที่สุด ก็มีคนเรียกใช้ Traceroute จาก Singapore VPS และพบว่า: การรับส่งข้อมูลกำลังเข้าสู่ Cloudflare Edge ที่ส่งคืน 502 CDN มีการหยุดทำงานของภูมิภาคซึ่งส่งผลกระทบต่อ PoP หนึ่งตัว — และไม่มีสิ่งใดในสแต็กการตรวจสอบของคุณที่ถูกตรวจสอบจากภูมิภาคนั้น

การหยุดทำงานสองชั่วโมง สำหรับภูมิศาสตร์เฉพาะ การแจ้งเตือนเป็นศูนย์ นั่นคือจุดบอดที่เพจนี้เกี่ยวกับ

ไม่ว่าจะเป็นการหยุดทำงานของ Cloudflare ความล้มเหลวของ Edge อย่างรวดเร็ว หรือการเสื่อมสภาพของภูมิภาค Akamai การตรวจพบปัญหาเหล่านี้จำเป็นต้องมีการตรวจสอบจากภูมิภาคที่ได้รับผลกระทบ นั่นคือวิธีที่คุณจะตรวจพบปัญหาก่อนที่จะกลายเป็นการยกระดับปัญหาของลูกค้า

CDN ของคุณระบุว่า "ใช้งานได้ทุกระบบ" ผู้ใช้ของคุณในเอเชียไม่เห็นด้วย

ข้อความ 3am Slack ที่เปลี่ยนวิธีคิดของคุณเกี่ยวกับการหยุดทำงาน

ความล้มเหลวของเซิร์ฟเวอร์ CDN Edge

ความล้มเหลวของ DNS ในระดับภูมิภาค

ปัญหาการกำหนดเส้นทางและการเพียร์ BGP

ISP และการเชื่อมต่อ Last-Mile

เหตุใดการตรวจสอบมาตรฐานจึงไม่ตรวจพบการหยุดทำงานในภูมิภาค

ตรวจตั้งแต่ 1-3 แห่ง

การตรวจสอบสังเคราะห์จากคลาวด์ถึงคลาวด์

เชื่อถือหน้าสถานะ CDN

ไม่มีการมองเห็นชั้นเครือข่าย

ช่องว่างการตรวจจับการหยุดทำงานของ Cloudflare

จะเกิดอะไรขึ้นเมื่อตรวจไม่พบการหยุดทำงานในระดับภูมิภาค

การสูญเสียรายได้อย่างเงียบ ๆ

เหตุการณ์ที่ลูกค้ารายงาน

SEO และ Googlebot ล้มเหลว

ปัญหา MTTR

วิธีตรวจจับการหยุดทำงานของ Cloudflare และความล้มเหลวของ CDN ระดับภูมิภาคอย่างเหมาะสม

ตรวจสอบจากสถานที่ทั่วโลกมากกว่า 50 แห่ง

การแยก Traceroute และเวลาในการตอบสนอง

การเปรียบเทียบทางประวัติศาสตร์ตามภูมิภาค

ความสามารถที่จำเป็นสำหรับการตรวจจับไฟฟ้าดับในระดับภูมิภาค

รายการตรวจสอบที่ใช้งานได้จริง: การตั้งค่าการตรวจจับไฟฟ้าดับในระดับภูมิภาค

จัดทำแผนที่ภูมิศาสตร์ผู้ใช้ของคุณกับสถานที่ตรวจสอบ

ตรวจสอบปลายทางที่ด้านหน้า CDN ของคุณ

กำหนดเกณฑ์เวลาในการตอบสนองต่อภูมิภาค

กำหนดค่าการแจ้งเตือนสำหรับความล้มเหลวในระดับภูมิภาค

เปิดใช้งาน Traceroute เพื่อวินิจฉัยเหตุการณ์

สร้าง runbooks สำหรับการยกระดับ CDN

ทบทวนแนวโน้มระดับภูมิภาคทุกสัปดาห์

พิจารณา multi-CDN สำหรับบริการที่สำคัญ

Latency Global จัดการกับการตรวจจับการหยุดทำงานในระดับภูมิภาคอย่างไร

คำถามที่พบบ่อย

การหยุดทำงานของ CDN ระดับภูมิภาคคืออะไร

เหตุใดหน้าสถานะของ Cloudflare จึงไม่แสดงการหยุดทำงานในภูมิภาค

ฉันต้องมีตำแหน่งการตรวจสอบกี่แห่งเพื่อตรวจจับการหยุดทำงานของ Cloudflare

ฉันควรทำอย่างไรเมื่อตรวจพบการหยุดทำงานของ Cloudflare ในระดับภูมิภาค

ฉันสามารถตรวจพบได้หรือไม่ว่าปัญหาคือ DNS, CDN หรือต้นทาง

สามารถตรวจพบการหยุดทำงานในระดับภูมิภาคได้เร็วแค่ไหน?

สิ่งนี้ใช้ได้กับ CDN อื่นนอกเหนือจาก Cloudflare หรือไม่

เริ่มการตรวจสอบทั่วโลกภายในเวลาไม่ถึง 2 นาที

CDN ของคุณระบุว่า "ใช้งานได้ทุกระบบ"
ผู้ใช้ของคุณในเอเชียไม่เห็นด้วย