Här kommer en sammanfattning om vad vi hittills vet om vad som gick fel under gårdagens underhåll på Oderland Cloud.
Underhållet påbörjades under dagtid eftersom vi inte förutsåg att det skulle orsaka någon större påverkan på prestandan. Efter vi såg att påverkan på prestandan var större än vi förutsåg, både genom våra egna verktyg och via rapporter från kunder, så avbröt vi underhållet. Vi bestämde då att senarelägga underhållet till kvällen/natten för att så få som möjligt skulle märka av den nedsatta prestandan.
Underhållet återupptogs kl 23 samma kväll. Vi såg som förväntat liknande prestandaproblem igen men förutom det gick allting som planerat. Runt kl 00:20 startades en av hårdvarunoderna oväntat om. Detta var inte en del av underhållsarbetet och borde inte hänt.
Alla servrar som låg på den hårdvarunoden migrerades automatiskt till andra noder. Det verkar dock ha orsakat problem för vissa servrar. Problemen som uppstod var alla relaterade till att servern tappade kontakten med lagringen. Det kan ha visat sig som read only file systems, IO errors eller att boot-disken inte kunde hittas.
Vi fick automatiskt larm om många av dessa servrar inte fungerade korrekt. Vi gick då in och startade om dom vilket löste problemet. Dock var det en del servrar som inte identifierades som problematiska av systemet och dessa startades därför inte om av oss.
Vi tar just nu följande åtgärder:
- Vi undersöker hur vi bättre kan identifiera servrar som inte fungerar korrekt om en liknande situation skulle uppstå igen i framtiden.
- Vi utreder tillsammans med leverantören av plattformen varför hårdvarunoden startdes om oväntat så att det inte händer igen.
- Vi utreder också med leverantören av plattformen om det finns något vi kan göra för att minimera påverkan på prestandan under tiden som underhållsarbetet utförs.
Underhållsrabetet kommer inte återupptas förrän ovanstående är klart.