Google Down, cosa è successo?

Google Down, cosa è successo?

Google Down, cosa è successo?

Il Google Down di lunedì 14 dicembre è stato un po’ più lungo del solito: è durato oltre 2 ore, dalle 12.30 alle 14.00, e soprattutto ha avuto un impatto globale. Le proteste delle persone sono arrivate infatti da ogni parte del mondo: il sito downdetector.com ha riportato decine di migliaia di segnalazioni soprattutto dall’Europa, per via del fuso orario, ma non mancano quelle da Usa e Asia.  I sistemi bloccati: YouTube (su cui una scimmia viola ha informato gli utenti che «Something went wrong», qualcosa è andato storto – in molti hanno pensato si trattasse di uno scherzo di un qualche hacker).

Poi, Gmail, Google Play, Google Drive e la G Suite, e di conseguenza anche gli strumenti Meet e Classroom per la didattica a distanza, per cui, in piena seconda ondata della pandemia Covid, le scuole hanno dovuto interrompere le lezioni – per la gioia degli studenti che si sono riversati sui social. Migliaia di studenti hanno festeggiato su Twitter con l’hashtag #googledown: “Potevi farlo prima, non a fine lezioni“, ha scritto un ragazzo, oppure “PER FAVORE CONTINUASSE PER 72ore GRAZIE“. Il motore di ricerca di Google invece ha continuato a funzionare.

Non si è trattato però della prima volta, in quanto un disservizio simile era successo anche il 24 settembre scorso, anche se per un periodo più breve. Come riportato da Google, in quel caso l’incidente era durato solo mezz’ora e aveva riguardato soprattutto utenti dell’area Asia/Pacific. Anche in quel caso però erano «caduti» contemporaneamente servizi fondamentali come Gmail, YouTube, Calendar, l’app per videoconferenze Meet, Drive, lasciando quindi gli utenti senza mail, appuntamenti e documenti.

Incident began at 2020-09-24 18:00 and ended at 2020-09-24 18:33

ISSUE SUMMARY

On Thursday 24 September, 2020 at 18:00 US/Pacific, one of Google’s several second-tier GFE pools experienced intermittent failures resulting in impact to several downstream services. Almost all services recovered within the initial 33 minutes of the incident; exceptions are outlined in the detailed impact section below. Affected customers experienced elevated error rates and latency when connecting to Google APIs. Existing workloads (i.e. running instances on GCE, or containers on GKE) were not impacted unless they needed to invoke impacted APIs.

Il ripristino dei servizi Google

Luned’ 14 Google ha velocemente riportato in piedi i propri servizi, segnalando sul proprio Dashboard, il pannello di controllo messo a disposizione dei clienti, che a breve tutti gli utenti avrebbero avuto un ripristino delle attività e la fine del disagio. Fin da subito Goggle ha anche spiegato che non si era trattato di un attacco esterno, ma che probabilmente l’incidente era dovuto a un problema al sistema di autenticazione.

Quindi perché è avvenuto l’incidente?…

Il 14 dicembre stesso è stato pubblicato l’Incident Report di Google, confermando che il problema è partito dal sistema di autenticazione, Point Of Failure che ha messo in crisi tutto il sistema #Google.

Preliminary Incident Statement while full Incident Report is prepared.

(All Times US/Pacific)
Incident Start: 2020-12-14 03:45
Incident End: 2020-12-14 04:35
Duration: 50 minutes;
Affected:
Services: Google Cloud Platform, Google Workspace
Features: Account login and authentication to all Cloud services
Regions/Zones: Global

Description:
Google Cloud Platform and Google Workspace experienced a global outage affecting all services which require Google account authentication for a duration of 50 minutes. The root cause was an issue in our automated quota management system which reduced capacity for Google’s central identity management system, causing it to return errors globally. As a result, we couldn’t verify that user requests were authenticated and served errors to our users.

Come ha dichiarato un portavoce dell’azienda: “Abbiamo riscontrato una interruzione del sistema di autenticazione durata circa 45 minuti, dovuta ad un problema interno con la ‘quota storage’. I servizi che necessitano che gli utenti siano loggati hanno riscontrato una elevata percentuale di errore durante quel periodo. Il problema è stato risolto alle 4:32 AM PT (13:32 ora italiana), con utti i servizi ripristinati. Ci scusiamo con tutti gli utenti impattati, condurremo un approfondito esame per garantire che non possa ripetersi in futuro“. Quindi si sarebbe trattato di un problema di “memoria insufficiente” (nello specifico, un problema nel sistema di gestione delle quote di archiviazione automatizzato di Google, che a sua volta riduceva la capacità del sistema di autenticazione) della durata di 50 minuti: il tema è però che qualsiasi interruzione diffusa dei principali servizi Google ha un impatto su centinaia di milioni di utenti.

Una spiegazione che non convince, ha commentato Michele Colajanni, professore di Sicurezza informatica all’Università di Modena e Reggio Emilia in un’intervista su Start Magazine: “La motivazione fornita da Google è stata molto scarna: insufficienti risorse di memoria. Riferita a un colosso mondiale come Google, è come dire insufficienti risorse d’acqua in un lago”, è l’opinione di Colajanni.

Google non ha problemi di memoria. È un’organizzazione di architetti, ingegneri e sistemisti informatici estremamente competenti che sono assolutamente in grado di progettare e realizzare architetture con caratteristiche di affidabilità Five Nine. Ovvero un livello di affidabilità e continuità del servizio del 99,999% (in pratica 5 minuti all’anno di disservizio) e in alcune aree sono già al Six Nine, che in termini informatici corrisponde all’always on, qualunque cosa succeda, terremoti, incendi e uragani inclusi. Visto che l’architettura è nata per essere massimamente resiliente, significa che c’è stato un altro tipo di problema”, sottolinea il professore: “Se simili architetture hanno subito un’interruzione di servizio di un’ora, è probabile che vi siano stati almeno un paio di eventi concomitanti”.

Se usiamo un approccio da rasoio di Occam, la causa più probabile è l’errore umano, magari in concomitanza con qualche guasto o incidente che non è stato gestito correttamente – aggiunge il professor Colajanni – Che sia stato solo un problema di cattiva configurazione è sempre possibile, ma lo ritengo poco probabile. Un guasto o malfunzionamento (errore 1) combinato a un errore nella sua gestione (errore 2) è la mia ipotesi più probabile, ed è questo che intendevo per combinazione di eventi”.

E i problemi a quando pare non sono ancora del tutto risolti, visto che in molti hanno osservato malfunzionamenti della posta Gmail ancora il 15 dicembre.

A CURA DI:

Elena Vaciago, @evaciago