Åtgärdad
Nu finns det inga hinder med att starta om servrar. Vi har gått igenom de servrar som stod i ett felläge och startat igång dem.
Senast uppdaterad 2025-06-12 18:53 CEST
Incidentrapport
Den här incidenten påverkade: Cloud
3 Jun 2025 20:43 CEST
Under eftermiddagen den 2 juni drabbades vår Cloud-infrastruktur av två separata störningar som orsakade tillfälliga avbrott för ett begränsat antal virtuella servrar. Incidenterna orsakades bl.a. av kernel panics på två olika noder i vårt kluster vid två olika tillfällen. Störningen innebar i vissa fall att virtuella servrar startade om, och i mer sällsynta fall att servrar inte fungerade korrekt efter omstart.
Problemen uppstod i samband med underhållsarbete där IPMI-firmware uppgraderades på en fysisk server i klustret. Denna typ av uppgradering är en okomplicerad process som vi utfört rutinmässigt många gånger tidigare utan att det orsakat problem. I det här fallet ledde dock uppgraderingen till att servern oväntat stängdes av, vilket i sin tur orsakade instabilitet i infrastrukturen och en kernel panic på en annan nod.
Under normala omständigheter förväntas en enskild nod som startas om eller försvinner ur klustret inte ge upphov till följdeffekter för andra noder. Att det ändå skedde gör att vi nu utreder detta vidare tillsammans med leverantören av virtualiseringsplattformen.
Efter den första kernel panic:en hamnade ett begränsat antal virtuella servrar i ett icke-fungerande läge. Den åtgärd som slutligen löste problemet var att dessa servrar stoppades, varefter den fysiska servern startades om forcerat.
Ytterligare en kernel panic inträffade senare samma dag på en annan nod i samband med en omstart.
Störningen pågick längre än nödvändigt eftersom vi - i nära samarbete med leverantören - valde att agera med stor försiktighet för att inte förvärra situationen. Vi tog problemet på största allvar och ville säkerställa att varje steg var rätt. Med facit i hand hade vi kunnat korta ned störningen om vi tidigare genomfört de åtgärder vi redan tidigt bedömde som lämpliga - åtgärder som vi till slut också valde att genomföra efter att felsökningen avslutats.
Den exakta orsaken till krascherna är ännu inte fastställd, men har rapporterats till leverantören för vidare analys.
Vi har vidtagit följande åtgärder för att undvika liknande incidenter i framtiden:
Vi ber om ursäkt för de problem som uppstod och tackar för ditt tålamod.
Nu finns det inga hinder med att starta om servrar. Vi har gått igenom de servrar som stod i ett felläge och startat igång dem.
Vi har påbörjat en omstart av en nod, allt eftersom kommer servrar att startas upp på andra noder.
Felsökningen pågår fortfarande, vi fortsätter att arbeta med mjukvaruleverantören för att lösa problemet.
Problemet är identifierat och det arbetas på en lösning.
Vi rekommenderar fortfarande att inte göra några omstarter just nu.
Felsökningen pågår fortsatt i samarbete med mjukvaruleverantören. Problemet påverkar ett begränsat antal VM:ar och hanteras med högsta prioritet.
Vi rekommenderar att du som kund undviker att starta om din VM tills vidare. Om omstart är nödvändig, kontakta oss först, då det finns risk att VM:en inte startar normalt i nuläget.
Vi har fått rapporter om vissa VM:ar som fortfarande inte fungerar som förväntat. Felsökning pågår.
Problemet har identifierats och vi ser inga fortsatta problem, men vi undersöker fortfarande bakomliggande orsaker.
Vi har noterat att vissa VM:ar i Oderland Cloud startat om oväntat. Felsökning pågår.