Poniedziałkowa awaria Google – znamy przyczynę

Poniedziałkowa awaria Google – znamy przyczynę

16 grudnia 2020 1 przez Rafał Skrzypek

W poniedziałek nastąpiła awaria Google, która na prawie godzinę zatrzymała większość usług amerykańskiego giganta. Dziś poznaliśmy jej przyczynę. Z powodu błędu system zarządzania tożsamością miał problemy z przestrzenią dyskową. W żargonie administratorów można powiedzieć, że „skończyła mu się quota”.

awaria Google

Całość doprowadziła do kłopotów z logowaniem użytkowników do Gmaila, YouTube, Google Drive, Google Maps, Google Calendar i innych serwisów Google. Według tweeta i raportu Google przyczyną awarii był błąd w automatycznym systemie zarządzania limitami przestrzeni dyskowej, który zmniejszył ilość pamięci dostępnej dla systemu uwierzytelniania.

awaria Google
Awaria Google została usunięta o 13:32

Wewnętrzne systemy firmy też miały problemy

Na stronie statusu Google Cloud podano więcej informacji o przyczynie awarii.

„W Google Cloud Platform i Google Workspace wystąpiła globalna przerwa w działaniu wszystkich usług, które wymagają uwierzytelnienia konta Google. Trwała ona około 50 minut. Główną przyczyną był problem w naszym automatycznym systemie zarządzania limitami, który zmniejszył ilość dostępnej przestrzeni dyskowej dla centralnego systemu zarządzania tożsamością Google, powodując błędy na całym świecie. W rezultacie nie mogliśmy zweryfikować, czy żądania użytkowników były uwierzytelniane.”

System zarządzania tożsamością służy do uwierzytelniania użytkowników i przypisywania im uprawnień podczas logowania. Po wyczerpaniu się miejsca Google IdM zaczął zwracać błędy, które uniemożliwiały użytkownikom uwierzytelnianie w usługach Google, w tym w Cloud Console, Cloud Storage, BigQuery, Google Kubernetes Engine, Gmailu, Kalendarzu, Meet, Dokumentach, Dysku i YouTube. Firma twierdzi również, że przestoje dotknęły również wewnętrznych użytkowników oraz narzędzia, powodując opóźnienia w badaniu awarii i zgłaszaniu aktualizacji.

Aby zapobiec ponownemu wystąpieniu tego typu problemów, wyłączono automatyczny system zarządzania limitami Google na czas prowadzenia dochodzenia.

Źródło: Twitter, Google Cloud Status Dashboard