Giám Sát Từ Sáu Vị Trí Địa Lý Cùng Một Lúc và Nếu Chỉ Có Một Cái Bị Hỏng Tôi Biết Chính Xác Vấn Đề Ở Đâu
Buổi sáng bắt đầu với một yêu cầu hỗ trợ từ khách hàng ở Singapore nói rằng trang web đã bị hỏng. Bảng điều khiển giám sát, chạy từ một máy chủ duy nhất ở Frankfurt, hiển thị mọi thứ đều tốt. Tất cả các kiểm tra đang vượt qua. Thời gian phản hồi bình thường. Trang web đã lên. Ngoại trừ nó không phải là, ít nhất là không phải cho bất cứ ai định tuyến thông qua các đường dẫn mạng nhất định ở châu Á. Vấn đề hóa ra là vấn đề định tuyến khu vực ở nhà cung cấp nguồn gốc ảnh hưởng đến lưu lượng từ Đông Nam Á trong khi để lại quyền truy cập Châu Âu và Bắc Mỹ hoàn toàn không bị ảnh hưởng. Hệ thống giám sát, trung thành kiểm tra từ điểm nhìn duy nhất ở Đức, không có cách nào để phát hiện vấn đề mà nó không thể nhìn thấy từ nơi nó đứng.
Sự cố này và một số sự cố tương tự sau đó trong năm tiếp theo đã chứng minh một giới hạn cơ bản của giám sát vị trí duy nhất có vẻ hiển nhiên khi nhìn lại nhưng lại dễ bỏ qua một cách đáng ngạc nhiên. Internet không phải là một mạng thống nhất nơi tất cả các con đường dẫn đến cùng một điểm đến qua cùng một cơ sở hạ tầng. Đó là một mạng lưới các hệ thống tự trị được kết nối, các thỏa thuận ngang hàng, các nút cạnh CDN và các bộ phân giải DNS tạo ra những trải nghiệm khác nhau cho người dùng ở các vùng địa lý khác nhau. Trang web có thể hoàn toàn có thể truy cập được từ Châu Âu trong khi đồng thời không thể truy cập được từ các phần của châu Á, hoạt động đầy đủ từ Bắc Mỹ trong khi gặp mất gói từ Nam Mỹ và nhanh từ một thành phố trong khi chậm từ một thành phố khác ở cùng một quốc gia.
Giải pháp mà uptime.yeb.to triển khai là giám sát đồng thời từ sáu vị trí địa lý trải dài trên nhiều châu lục. Mỗi kiểm tra chạy từ tất cả sáu vị trí trong cùng một cửa sổ thời gian và các kết quả được so sánh để xác định vấn đề là toàn cầu hay khu vực. Khi tất cả sáu vị trí báo cáo lỗi, trang web thực sự không hoạt động ở mọi nơi. Khi một hoặc hai vị trí báo cáo lỗi trong khi những cái khác thành công, vấn đề là khu vực và các vị trí bị lỗi ngay lập tức thu hẹp phạm vi vấn đề ở đâu. Phép tam giác địa lý này biến đổi giám sát từ tín hiệu "lên hoặc xuống" nhị phân thành bản đồ sự sẵn có sắc thái phản ánh cách internet thực sự hoạt động.
Tại Sao Giám Sát Vị Trí Duy Nhất Tạo Điểm Mù Nguy Hiểm
Hầu hết các dịch vụ giám sát thời gian hoạt động, bao gồm cả nhiều dịch vụ nổi tiếng, mặc định kiểm tra từ một vị trí duy nhất hoặc cho phép người dùng chọn một vùng giám sát chính. Phương pháp này hoạt động hoàn hảo để phát hiện các sự cố hoàn toàn nơi máy chủ nguồn gốc bị hỏng và không ai ở bất cứ đâu có thể truy cập trang web. Đối với những lỗi thảm khốc này, một bộ khám phá duy nhất là đủ vì vấn đề là phổ quát. Nhưng thất bại hoàn toàn của máy chủ chỉ là một loại sự cố và ngày càng không phải là loại phổ biến nhất. Cơ sở hạ tầng web hiện đại, với các lớp CDN, bộ cân bằng tải, DNS failover và bộ nhớ đệm cạnh, đã làm cho các sự cố hoàn toàn hiếm trong khi làm cho các lỗi một phần, khu vực và gián đoạn thường xuyên hơn.
Các vấn đề liên quan đến CDN là nguồn phổ biến nhất của sự khác biệt khu vực. Mạng phân phối nội dung hoạt động bằng cách lưu nội dung tại các máy chủ cạnh phân tán trên toàn thế giới và mỗi máy chủ cạnh phục vụ những người truy cập gần nhất về mặt địa lý. Khi nút cạnh CDN ở một vùng cụ thể gặp sự cố, cho dù lỗi phần cứng, cấu hình sai hay quá tải công suất, những người truy cập được định tuyến đến nút cạnh không lành mạnh trải nghiệm hiệu suất giảm hoặc không sẵn dùng hoàn toàn trong khi những người truy cập được định tuyến đến các nút cạnh lành mạnh không thấy vấn đề. Bộ theo dõi vị trí duy nhất tình cờ được định tuyến đến nút cạnh lành mạnh sẽ báo cáo mọi thứ là bình thường trong khi toàn bộ vùng của những người dùng bị ảnh hưởng.
Các vấn đề lan truyền DNS tạo ra một loại lỗi khu vực khác. Khi các bản ghi DNS được cập nhật, những thay đổi lan truyền thông qua cơ sở hạ tầng DNS toàn cầu ở các tốc độ khác nhau tùy thuộc vào giá trị TTL, hành vi bộ nhớ đệm bộ phân giải và đường dẫn phân giải cụ thể mà mỗi vùng theo dõi. Trong cửa sổ lan truyền, một số vùng có thể phân giải tên miền thành địa chỉ IP cũ trong khi những cái khác phân giải thành cái mới. Nếu IP cũ không còn phục vụ lưu lượng, các vùng vẫn chỉ đến nó trải nghiệm sự cố mà các vùng đã chỉ đến IP mới sẽ không bao giờ nhìn thấy. Thiết lập giám sát đa vùng phát hiện điều này ngay lập tức vì một số bộ khám phá sẽ thất bại trong khi những cái khác thành công, tạo ra một mô hình đặc trưng cho các vấn đề lan truyền DNS và khác biệt với các vấn đề cấp máy chủ.
Sáu Bộ Khám Phá và Các Mô Hình Lỗi Mỗi Mô Hình Tiết Lộ
Sức mạnh của sáu bộ khám phá đồng thời nằm không chỉ ở việc phát hiện các lỗi mà còn chẩn đoán chúng. Các mô hình lỗi khác nhau tương ứng với các loại vấn đề khác nhau và một nhà khai thác có kinh nghiệm thường có thể xác định nguyên nhân gốc rễ từ mô hình giám sát duy nhất trước khi thậm chí mở cửa sổ thiết bị đầu cuối. Khi tất cả sáu bộ khám phá thất bại đồng thời với lỗi hết thời gian kết nối, máy chủ nguồn gốc hoặc mạng của nó có thể không thể truy cập được, gợi ý sự cố máy chủ, sự cố nhà cung cấp lưu trữ hoặc vấn đề cấp mạng tại trung tâm dữ liệu. Khi tất cả sáu bộ khám phá thất bại với các phản hồi lỗi HTTP như 502 hoặc 503, máy chủ có thể truy cập được nhưng ứng dụng bị hỏng, gợi ý lỗi triển khai, lỗi cơ sở dữ liệu hoặc sự cố ứng dụng cấp độ.
Khi một hoặc hai bộ khám phá thất bại trong khi những cái khác thành công, mô hình kể một câu chuyện khu vực. Nếu các bộ khám phá bị lỗi đều ở châu Á trong khi các bộ khám phá Châu Âu và Bắc Mỹ thành công, vấn đề gần như chắc chắn nằm ở đường dẫn mạng giữa châu Á và máy chủ nguồn gốc, cho dù ở cạnh CDN, nhà cung cấp vận chuyển hay bộ phân giải DNS khu vực. Nếu bộ khám phá bị lỗi ở cùng vùng với máy chủ nguồn gốc trong khi các bộ khám phá xa xôi thành công, vấn đề có thể nằm ở cấp mạng cục bộ của nhà cung cấp lưu trữ với các bộ khám phá xa xôi được phục vụ từ bộ nhớ đệm CDN che khuất lỗi nguồn gốc. Mỗi mô hình thu hẹp phạm vi chẩn đoán và tăng nhanh thời gian để giải quyết.
Biến thể thời gian phản hồi trên các bộ khám phá cung cấp một tín hiệu tinh tế nhưng có giá trị ngang nhau. Nếu tất cả sáu bộ khám phá hiển thị các phản hồi thành công nhưng thời gian phản hồi của một vùng đã tăng gấp đôi so với đường cơ sở lịch sử của nó, vùng đó đang trải nghiệm suy giảm chưa tiến triển thành lỗi đầy đủ. Bắt được suy giảm trước khi nó trở thành sự cố là một trong những khả năng có giá trị nhất của giám sát đa vùng vì nó cung cấp cho nhà khai thác một cửa sổ thời gian để điều tra và can thiệp trước khi người dùng ở vùng đó bắt đầu gửi yêu cầu hỗ trợ. Bảng điều khiển giám sát hiển thị thời gian phản hồi cho tất cả sáu vị trí trên một dòng thời gian duy nhất, làm cho các mô hình suy giảm khu vực có thể nhìn thấy một cách bình tĩnh.
Định Tuyến Địa Lý và Các Vấn Đề Nó Che Giấu
Cơ sở hạ tầng internet hiện đại sử dụng định tuyến địa lý rộng rãi, hướng người dùng đến máy chủ hoặc cạnh CDN gần nhất có sẵn dựa trên vị trí của họ. Định tuyến này nói chung là có lợi vì nó giảm độ trễ và cải thiện hiệu suất cho phần lớn người dùng. Nhưng nó cũng có nghĩa rằng đường dẫn một yêu cầu lấy từ điểm A đến điểm B thay đổi rất lớn tùy thuộc vào điểm A ở đâu. Bộ khám phá giám sát ở New York và bộ khám phá giám sát ở Tokyo sẽ lấy các đường dẫn mạng hoàn toàn khác nhau để tiếp cận cùng một trang web, đi qua các ISP khác nhau, các trao đổi ngang hàng khác nhau và các cạnh CDN khác nhau. Một vật cản bất kỳ nơi nào dọc theo một đường dẫn có thể không nhìn thấy từ cái khác.
Định tuyến Anycast, được sử dụng bởi hầu hết các CDN chính và các nhà cung cấp DNS, thêm một lớp phức tạp khác. Với anycast, cùng một địa chỉ IP được thông báo từ nhiều vị trí địa lý và cơ sở hạ tầng định tuyến internet hướng mỗi yêu cầu đến vị trí thông báo gần nhất. Điều này có nghĩa rằng một phân giải DNS hoặc yêu cầu CDN từ Châu Âu tiếp cận một máy chủ Châu Âu trong khi cùng một yêu cầu từ châu Á tiếp cận một máy chủ châu Á, mặc dù địa chỉ IP trong cả hai trường hợp đều giống hệt nhau. Nếu nút anycast châu Á có vấn đề, các bộ khám phá châu Á phát hiện nó trong khi các bộ khám phá Châu Âu không thể, vì các yêu cầu của họ không bao giờ thậm chí tiếp cận cùng một máy chủ vật lý.
Các thay đổi định tuyến BGP có thể gây ra các vấn đề về khả năng tiếp cận tạm thời hoặc kéo dài cho các vùng cụ thể. Khi một tuyến giao thức cổng biên giới bị rút lại hoặc thay đổi, lưu lượng trước đó chảy qua một đường dẫn trực tiếp có thể được định tuyến lại qua các đường dẫn dài hơn, có thể bị tắc nghẽn, làm tăng độ trễ và đôi khi gây mất gói. Các sự kiện BGP này là phổ biến, xảy ra hàng ngàn lần mỗi ngày trên toàn cầu và tác động của chúng vốn dĩ là khu vực. Hệ thống giám sát đa vùng trải nghiệm những sự kiện này trực tiếp thông qua các bộ khám phá phân tán của nó, phát hiện tác động trên mỗi vùng độc lập chứ không phải dựa vào một điểm vantage duy nhất có thể hoặc không thể bị ảnh hưởng.
Từ Phát Hiện Đến Hành Động và Biết Cái Gì Để Sửa
Phát hiện mà không có thông tin hành động là chỉ một cảnh báo làm tạo tiếng ồn mà không chỉ vào một giải pháp. Giá trị của giám sát đa vùng mở rộng vượt quá việc cho bạn biết rằng có gì đó sai. Nó cho bạn biết nơi nó sai lầm và, thông qua mô hình lỗi, gợi ý loại sai lầm nó là. Bối cảnh chẩn đoán này biến quá trình phản ứng sự cố từ một cuộc tìm kiếm điên cuồng qua nhật ký và bảng điều khiển đến một cuộc điều tra có mục tiêu bắt đầu với một giả thuyết mạnh mẽ về nguyên nhân gốc rễ.
Khi các cảnh báo giám sát hiển thị rằng một vùng duy nhất đã bị lỗi trong khi những cái khác vẫn khỏe mạnh, nhà khai thác có thể ngay lập tức tập trung cuộc điều tra của họ vào đường dẫn mạng của vùng đó. Cạnh CDN ở vùng đó đang báo cáo các vấn đề? Có sự cố BGP hoạt động ảnh hưởng đến các nhà cung cấp vận chuyển ở khu vực đó không? Bộ phân giải DNS cho vùng đó có bộ nhớ đệm một bản ghi cũ hoặc không chính xác không? Mỗi một trong những câu hỏi này có thể được trả lời nhanh chóng và câu trả lời dẫn đến các hành động khắc phục cụ thể: xóa bộ nhớ đệm CDN cho vùng đó, liên hệ với nhà cung cấp vận chuyển hoặc buộc làm mới DNS. Mà không có bối cảnh địa lý cung cấp bởi giám sát đa vùng, nhà khai thác sẽ điều tra mù quanh, kiểm tra mọi điểm lỗi có thể chứ không phải là các điểm có khả năng chịu trách nhiệm nhất.
Nền tảng giám sát thời gian hoạt động ghép các kết quả kiểm tra đa vùng với dữ liệu lịch sử thêm bối cảnh tạm thời vào bối cảnh không gian. Nếu vùng tương tự đã trải nghiệm các lỗi vào cùng thời điểm trong ngày vào những dịp trước, điều đó gợi ý một vấn đề định kỳ như một cửa sổ bảo trì lên lịch tại một nhà cung cấp vận chuyển hoặc một mô hình lưu lượng có thể dự đoán gây ra các vấn đề về công suất trong giờ cao điểm. Nếu lỗi là sự xuất hiện đầu tiên không có tiền lệ lịch sử, nó có khả năng là một sự cố cấp tính đòi hỏi sự chú ý ngay lập tức. Sự kết hợp của bối cảnh địa lý và bối cảnh tạm thời cung cấp cho các nhà khai thác bức tranh đầy đủ nhất có thể về những gì đang xảy ra, nơi nó đang xảy ra và liệu nó có xảy ra trước đây hay không.
Các Câu Hỏi Thường Gặp
Sáu vị trí nào được sử dụng để giám sát
Nền tảng giám sát sử dụng các vị trí bộ khám phá phân tán trên Bắc Mỹ, Châu Âu và Châu Á để cung cấp phạm vi toàn cầu. Các vị trí cụ thể được chọn để đại diện cho các trung tâm định tuyến internet chính nơi phần lớn lưu lượng web toàn cầu chảy.
Điều gì xảy ra khi chỉ có một vị trí phát hiện lỗi
Một lỗi vị trí duy nhất kích hoạt cảnh báo chỉ ra vấn đề khu vực chứ không phải là sự cố hoàn toàn. Cảnh báo bao gồm vị trí cụ thể bị lỗi và chi tiết phản hồi, giúp nhà khai thác xác định xem vấn đề là ở cạnh CDN, nhà cung cấp vận chuyển hay bộ phân giải DNS phục vụ vùng đó.
Giám sát đa vùng có thể phát hiện hiệu suất chậm trước khi bị lỗi hoàn toàn không
Đúng. Giám sát thời gian phản hồi trên tất cả sáu vị trí tiết lộ suy giảm ở các vùng cụ thể ngay cả khi trang web vẫn còn về mặt kỹ thuật có thể truy cập được. Thời gian phản hồi đã tăng gấp đôi từ đường cơ sở của nó ở một vùng trong khi vẫn ổn định ở những cái khác là một tín hiệu cảnh báo sớm cho phép nhà khai thác điều tra trước khi người dùng trải nghiệm thất bại hoàn toàn.
Các kiểm tra chạy từ mỗi vị trí thường xuyên bao nhiêu
Tần suất kiểm tra có thể cấu hình tùy thuộc vào kế hoạch giám sát. Mỗi khoảng thời gian kiểm tra kích hoạt bộ khám phá đồng thời từ tất cả sáu vị trí, đảm bảo rằng mỗi kiểm tra cung cấp một ảnh chụp địa lý hoàn chỉnh chứ không phải quan sát điểm duy nhất.
Giám sát đa vùng có hoạt động với các trang web phía sau Cloudflare hoặc các CDN khác không
Có, và các trang web phía trước CDN thực tế là nơi giám sát đa vùng cung cấp giá trị cao nhất. Các vấn đề cạnh CDN vốn dĩ là khu vực, và chỉ giám sát đa vùng mới có thể phát hiện khi cạnh CDN cụ thể bị suy giảm trong khi những cái khác vẫn khỏe mạnh.
Điều này có hữu ích cho các trang web chỉ có lưu lượng từ một quốc gia không
Ngay cả các trang web có lưu lượng tập trung về mặt địa lý cũng được hưởng lợi từ giám sát đa vùng vì các vấn đề về đường dẫn mạng có thể ảnh hưởng đến bất kỳ tuyến đường nào. Ngoài ra, các crawler công cụ tìm kiếm truy cập các trang web từ nhiều vùng, vì vậy một sự cố vùng chặn Googlebot khỏi việc thu thập dữ liệu ảnh hưởng đến SEO ngay cả khi người dùng con người ở thị trường chính không bị ảnh hưởng.