Oväntad omstart av vissa VM:ar i Oderland Cloud

Den här incidenten påverkade: Cloud

Postmortem

3 Jun 2025 20:43 CEST

Vad hände?

Under eftermiddagen den 2 juni drabbades vår Cloud-infrastruktur av två separata störningar som orsakade tillfälliga avbrott för ett begränsat antal virtuella servrar. Incidenterna orsakades bl.a. av kernel panics på två olika noder i vårt kluster vid två olika tillfällen. Störningen innebar i vissa fall att virtuella servrar startade om, och i mer sällsynta fall att servrar inte fungerade korrekt efter omstart.

Varför hände det?

Problemen uppstod i samband med underhållsarbete där IPMI-firmware uppgraderades på en fysisk server i klustret. Denna typ av uppgradering är en okomplicerad process som vi utfört rutinmässigt många gånger tidigare utan att det orsakat problem. I det här fallet ledde dock uppgraderingen till att servern oväntat stängdes av, vilket i sin tur orsakade instabilitet i infrastrukturen och en kernel panic på en annan nod.

Under normala omständigheter förväntas en enskild nod som startas om eller försvinner ur klustret inte ge upphov till följdeffekter för andra noder. Att det ändå skedde gör att vi nu utreder detta vidare tillsammans med leverantören av virtualiseringsplattformen.

Efter den första kernel panic:en hamnade ett begränsat antal virtuella servrar i ett icke-fungerande läge. Den åtgärd som slutligen löste problemet var att dessa servrar stoppades, varefter den fysiska servern startades om forcerat.

Ytterligare en kernel panic inträffade senare samma dag på en annan nod i samband med en omstart.

Störningen pågick längre än nödvändigt eftersom vi - i nära samarbete med leverantören - valde att agera med stor försiktighet för att inte förvärra situationen. Vi tog problemet på största allvar och ville säkerställa att varje steg var rätt. Med facit i hand hade vi kunnat korta ned störningen om vi tidigare genomfört de åtgärder vi redan tidigt bedömde som lämpliga - åtgärder som vi till slut också valde att genomföra efter att felsökningen avslutats.

Den exakta orsaken till krascherna är ännu inte fastställd, men har rapporterats till leverantören för vidare analys.

Vad gör vi för att det inte ska hända igen?

Vi har vidtagit följande åtgärder för att undvika liknande incidenter i framtiden:

IPMI-uppgraderingar kommer inte längre att genomföras på servrar som har aktiv last.
Vi har rapporterat incidenten till vår leverantör av virtualiseringsplattformen för vidare felsökning av de kernel-relaterade krascherna.
Problemet med IPMI-uppgraderingen har även rapporterats till vår hårdvaruleverantör.
Vi har idag haft en detaljerad genomgång av händelseförloppet för att identifiera hur incidenten kunde ha hanterats annorlunda och hur påverkan hade kunnat begränsas.

Vi ber om ursäkt för de problem som uppstod och tackar för ditt tålamod.

Historik

Åtgärdad

Nu finns det inga hinder med att starta om servrar. Vi har gått igenom de servrar som stod i ett felläge och startat igång dem.

Postad 2 Jun 2025 20:11 CEST

Identifierad

Vi har påbörjat en omstart av en nod, allt eftersom kommer servrar att startas upp på andra noder.

Postad 2 Jun 2025 19:45 CEST

Identifierad

Felsökningen pågår fortfarande, vi fortsätter att arbeta med mjukvaruleverantören för att lösa problemet.

Problemet är identifierat och det arbetas på en lösning.

Vi rekommenderar fortfarande att inte göra några omstarter just nu.

Postad 2 Jun 2025 19:34 CEST

Undersöker

Felsökningen pågår fortsatt i samarbete med mjukvaruleverantören. Problemet påverkar ett begränsat antal VM:ar och hanteras med högsta prioritet.

Vi rekommenderar att du som kund undviker att starta om din VM tills vidare. Om omstart är nödvändig, kontakta oss först, då det finns risk att VM:en inte startar normalt i nuläget.

Postad 2 Jun 2025 16:48 CEST

Undersöker

Vi har fått rapporter om vissa VM:ar som fortfarande inte fungerar som förväntat. Felsökning pågår.

Postad 2 Jun 2025 15:37 CEST

Identifierad

Problemet har identifierats och vi ser inga fortsatta problem, men vi undersöker fortfarande bakomliggande orsaker.

Postad 2 Jun 2025 14:52 CEST

Undersöker

Vi har noterat att vissa VM:ar i Oderland Cloud startat om oväntat. Felsökning pågår.

Postad 2 Jun 2025 14:35 CEST